231007 Texte aus dem WWW: Datenerhebung und Analyse mit Python (S) (SoSe 2021)

Contents, comment

Ein großer Teil des World Wide Web besteht aus textuellen Daten - von Posts in Social Media-Diensten (z.B. Reddit, Twitter) über Blog-Artikel bis hin zu Enzyklopädien wie der Wikipedia. Die Analyse solcher Daten wurde in der Vergangenheit immer wichtiger, sowohl in der Wissenschaft als auch in der freien Wirtschaft. Aufgrund der großen Textmengen ist es jedoch nicht immer möglich, Datensets aus Online-Quellen manuell zusammenzustellen und zu betrachten.

In dieser Veranstaltung werden grundlegende Methoden behandelt, um Text-Daten aus Online-Quellen zu sammeln, zu verarbeiten und hinsichtlich ihres Inhalts zu analysieren. Dabei wird auf gängige Ansätze aus der angewandten Computerlinguistik sowie der Korpuslinguistik zurückgegriffen. Umgesetzt werden diese mithilfe bestehender Module und Frameworks für die Programmiersprache Python. Den Teilnehmenden sollen Kenntnisse und praktische Fähigkeiten vermittelt werden, die es ihnen ermöglichen für eigene (Forschungs-)Vorhaben Datensets mit Texten aus Online-Quellen zusammenzustellen sowie einfache quantitative Analysen anzufertigen.

In den ersten Wochen der Veranstaltung werden notwendige Fähigkeiten in der Programmierung mit Python vermittelt. Im Anschluss werden allgemeine Schritte behandelt, wie Text-Daten für die anschließende automatische Verarbeitung vorbereitet werden können (etwa die Bereinigung / Normalisierung von Text, das Aufteilen von Texten in einzelne Wörter und die Bestimmung von Wortarten). Danach wird gezeigt, wie Textdaten mittels Python aus Online-Quellen extrahiert, gesammelt und abgespeichert werden können. Dabei wird einerseits die Extraktion von Informationen aus HTML-Seiten betrachtet (Web Scraping). Andererseits wird die Verwendung von (Social Media-)APIs für Dienste wie Reddit oder Twitter demonstriert.
Zum Schluss der Veranstaltung werden grundlegende Methoden behandelt, mithilfe derer die gesammelten Texte in Hinsicht auf ihren Inhalt automatisiert ausgewertet werden können. In diesem Rahmen soll auch ein Ausblick auf fortgeschrittenere (etwa Machine Learning-basierte) Methoden erfolgen.

Teaching staff

Dates ( Calendar view )

Frequency Weekday Time Format / Place Period  
weekly Mo 12-14 ONLINE   12.04.-23.07.2021

Hide passed dates <<

Subject assignments

Module Course Requirements  
23-MeWi-HM3 Texttechnologien Lehrveranstaltung III Study requirement
Student information
23-MeWi-HM3a Mathematisch-linguistische Sprachmodellierung Lehrveranstaltung III Study requirement
Student information
Lehrveranstaltung IV Study requirement
Student information
- Graded examination Student information
23-MeWi-HM3a_a Mathematisch-linguistische Sprachmodellierung Lehrveranstaltung 2 Study requirement
Student information
Lehrveranstaltung 3 Study requirement
Student information

The binding module descriptions contain further information, including specifications on the "types of assignments" students need to complete. In cases where a module description mentions more than one kind of assignment, the respective member of the teaching staff will decide which task(s) they assign the students.


No more requirements
E-Learning Space
E-Learning Space
Address:
SS2021_231007@ekvv.uni-bielefeld.de
This address can be used by teaching staff, their secretary's offices as well as the individuals in charge of course data maintenance to send emails to the course participants. IMPORTANT: All sent emails must be activated. Wait for the activation email and follow the instructions given there.
If the reference number is used for several courses in the course of the semester, use the following alternative address to reach the participants of exactly this: VST_261234993@ekvv.uni-bielefeld.de
Notes:
Additional notes on the electronic mailing lists
Last update basic details/teaching staff:
Wednesday, April 7, 2021 
Last update times:
Tuesday, January 26, 2021 
Last update rooms:
Tuesday, January 26, 2021 
Type(s) / SWS (hours per week per semester)
seminar (S) / 2
Department
Faculty of Linguistics and Literary Studies
Questions or corrections?
Questions or correction requests for this course?
Planning support
Clashing dates for this course
Links to this course
If you want to set links to this course page, please use one of the following links. Do not use the link shown in your browser!
The following link includes the course ID and is always unique:
https://ekvv.uni-bielefeld.de/kvv_publ/publ/vd?id=261234993
Send page to mobile
Click to open QR code
Scan QR code: Enlarge QR code
ID
261234993