Ein großer Teil des World Wide Web besteht aus textuellen Daten - von Posts in Social Media-Diensten (z.B. Reddit, Twitter) über Blog-Artikel bis hin zu Enzyklopädien wie der Wikipedia. Die Analyse solcher Daten wurde in der Vergangenheit immer wichtiger, sowohl in der Wissenschaft als auch in der freien Wirtschaft. Aufgrund der großen Textmengen ist es jedoch nicht immer möglich, Datensets aus Online-Quellen manuell zusammenzustellen und zu betrachten.
In dieser Veranstaltung werden grundlegende Methoden behandelt, um Text-Daten aus Online-Quellen zu sammeln, zu verarbeiten und hinsichtlich ihres Inhalts zu analysieren. Dabei wird auf gängige Ansätze aus der angewandten Computerlinguistik sowie der Korpuslinguistik zurückgegriffen. Umgesetzt werden diese mithilfe bestehender Module und Frameworks für die Programmiersprache Python. Den Teilnehmenden sollen Kenntnisse und praktische Fähigkeiten vermittelt werden, die es ihnen ermöglichen für eigene (Forschungs-)Vorhaben Datensets mit Texten aus Online-Quellen zusammenzustellen sowie einfache quantitative Analysen anzufertigen.
In den ersten Wochen der Veranstaltung werden notwendige Fähigkeiten in der Programmierung mit Python vermittelt. Im Anschluss werden allgemeine Schritte behandelt, wie Text-Daten für die anschließende automatische Verarbeitung vorbereitet werden können (etwa die Bereinigung / Normalisierung von Text, das Aufteilen von Texten in einzelne Wörter und die Bestimmung von Wortarten). Danach wird gezeigt, wie Textdaten mittels Python aus Online-Quellen extrahiert, gesammelt und abgespeichert werden können. Dabei wird einerseits die Extraktion von Informationen aus HTML-Seiten betrachtet (Web Scraping). Andererseits wird die Verwendung von (Social Media-)APIs für Dienste wie Reddit oder Twitter demonstriert.
Zum Schluss der Veranstaltung werden grundlegende Methoden behandelt, mithilfe derer die gesammelten Texte in Hinsicht auf ihren Inhalt automatisiert ausgewertet werden können. In diesem Rahmen soll auch ein Ausblick auf fortgeschrittenere (etwa Machine Learning-basierte) Methoden erfolgen.
Rhythmus | Tag | Uhrzeit | Format / Ort | Zeitraum |
---|
Modul | Veranstaltung | Leistungen | |
---|---|---|---|
23-MeWi-HM3 Texttechnologien | Lehrveranstaltung III | Studienleistung
|
Studieninformation |
23-MeWi-HM3a Mathematisch-linguistische Sprachmodellierung | Lehrveranstaltung III | Studienleistung
|
Studieninformation |
Lehrveranstaltung IV | Studienleistung
|
Studieninformation | |
- | benotete Prüfungsleistung | Studieninformation | |
23-MeWi-HM3a_a Mathematisch-linguistische Sprachmodellierung | Lehrveranstaltung 2 | Studienleistung
|
Studieninformation |
Lehrveranstaltung 3 | Studienleistung
|
Studieninformation |
Die verbindlichen Modulbeschreibungen enthalten weitere Informationen, auch zu den "Leistungen" und ihren Anforderungen. Sind mehrere "Leistungsformen" möglich, entscheiden die jeweiligen Lehrenden darüber.
Zu dieser Veranstaltung existiert ein Lernraum im E-Learning System. Lehrende können dort Materialien zu dieser Lehrveranstaltung bereitstellen: