Ein großer Teil des World Wide Web besteht aus textuellen Daten - von Posts in Social Media-Diensten (z.B. Reddit, Twitter) über Blog-Artikel bis hin zu Enzyklopädien wie der Wikipedia. Die Analyse solcher Daten wurde in der Vergangenheit immer wichtiger, sowohl in der Wissenschaft als auch in der freien Wirtschaft. Aufgrund der großen Textmengen ist es jedoch nicht immer möglich, Datensets aus Online-Quellen manuell zusammenzustellen und zu betrachten.
In dieser Veranstaltung werden grundlegende Methoden behandelt, um Text-Daten aus Online-Quellen zu sammeln, zu verarbeiten und hinsichtlich ihres Inhalts zu analysieren. Dabei wird auf gängige Ansätze aus der angewandten Computerlinguistik sowie der Korpuslinguistik zurückgegriffen. Umgesetzt werden diese mithilfe bestehender Module und Frameworks für die Programmiersprache Python. Den Teilnehmenden sollen Kenntnisse und praktische Fähigkeiten vermittelt werden, die es ihnen ermöglichen für eigene (Forschungs-)Vorhaben Datensets mit Texten aus Online-Quellen zusammenzustellen sowie einfache quantitative Analysen anzufertigen.
In den ersten Wochen der Veranstaltung werden notwendige Fähigkeiten in der Programmierung mit Python vermittelt. Im Anschluss werden allgemeine Schritte behandelt, wie Text-Daten für die anschließende automatische Verarbeitung vorbereitet werden können (etwa die Bereinigung / Normalisierung von Text, das Aufteilen von Texten in einzelne Wörter und die Bestimmung von Wortarten). Danach wird gezeigt, wie Textdaten mittels Python aus Online-Quellen extrahiert, gesammelt und abgespeichert werden können. Dabei wird einerseits die Extraktion von Informationen aus HTML-Seiten betrachtet (Web Scraping). Andererseits wird die Verwendung von (Social Media-)APIs für Dienste wie Reddit oder Twitter demonstriert.
Zum Schluss der Veranstaltung werden grundlegende Methoden behandelt, mithilfe derer die gesammelten Texte in Hinsicht auf ihren Inhalt automatisiert ausgewertet werden können. In diesem Rahmen soll auch ein Ausblick auf fortgeschrittenere (etwa Machine Learning-basierte) Methoden erfolgen.
Frequency | Weekday | Time | Format / Place | Period | |
---|---|---|---|---|---|
weekly | Mo | 12-14 | ONLINE | 12.04.-23.07.2021 |
Module | Course | Requirements | |
---|---|---|---|
23-MeWi-HM3 Texttechnologien | Lehrveranstaltung III | Study requirement
|
Student information |
23-MeWi-HM3a Mathematisch-linguistische Sprachmodellierung | Lehrveranstaltung III | Study requirement
|
Student information |
Lehrveranstaltung IV | Study requirement
|
Student information | |
- | Graded examination | Student information | |
23-MeWi-HM3a_a Mathematisch-linguistische Sprachmodellierung | Lehrveranstaltung 2 | Study requirement
|
Student information |
Lehrveranstaltung 3 | Study requirement
|
Student information |
The binding module descriptions contain further information, including specifications on the "types of assignments" students need to complete. In cases where a module description mentions more than one kind of assignment, the respective member of the teaching staff will decide which task(s) they assign the students.