231007 Texte aus dem WWW: Datenerhebung und Analyse mit Python (S) (SoSe 2021)

Inhalt, Kommentar

Ein großer Teil des World Wide Web besteht aus textuellen Daten - von Posts in Social Media-Diensten (z.B. Reddit, Twitter) über Blog-Artikel bis hin zu Enzyklopädien wie der Wikipedia. Die Analyse solcher Daten wurde in der Vergangenheit immer wichtiger, sowohl in der Wissenschaft als auch in der freien Wirtschaft. Aufgrund der großen Textmengen ist es jedoch nicht immer möglich, Datensets aus Online-Quellen manuell zusammenzustellen und zu betrachten.

In dieser Veranstaltung werden grundlegende Methoden behandelt, um Text-Daten aus Online-Quellen zu sammeln, zu verarbeiten und hinsichtlich ihres Inhalts zu analysieren. Dabei wird auf gängige Ansätze aus der angewandten Computerlinguistik sowie der Korpuslinguistik zurückgegriffen. Umgesetzt werden diese mithilfe bestehender Module und Frameworks für die Programmiersprache Python. Den Teilnehmenden sollen Kenntnisse und praktische Fähigkeiten vermittelt werden, die es ihnen ermöglichen für eigene (Forschungs-)Vorhaben Datensets mit Texten aus Online-Quellen zusammenzustellen sowie einfache quantitative Analysen anzufertigen.

In den ersten Wochen der Veranstaltung werden notwendige Fähigkeiten in der Programmierung mit Python vermittelt. Im Anschluss werden allgemeine Schritte behandelt, wie Text-Daten für die anschließende automatische Verarbeitung vorbereitet werden können (etwa die Bereinigung / Normalisierung von Text, das Aufteilen von Texten in einzelne Wörter und die Bestimmung von Wortarten). Danach wird gezeigt, wie Textdaten mittels Python aus Online-Quellen extrahiert, gesammelt und abgespeichert werden können. Dabei wird einerseits die Extraktion von Informationen aus HTML-Seiten betrachtet (Web Scraping). Andererseits wird die Verwendung von (Social Media-)APIs für Dienste wie Reddit oder Twitter demonstriert.
Zum Schluss der Veranstaltung werden grundlegende Methoden behandelt, mithilfe derer die gesammelten Texte in Hinsicht auf ihren Inhalt automatisiert ausgewertet werden können. In diesem Rahmen soll auch ein Ausblick auf fortgeschrittenere (etwa Machine Learning-basierte) Methoden erfolgen.

Lehrende

Termine ( Kalendersicht )

Rhythmus Tag Uhrzeit Format / Ort Zeitraum  

Zeige vergangene Termine >>

Fachzuordnungen

Modul Veranstaltung Leistungen  
23-MeWi-HM3 Texttechnologien Lehrveranstaltung III Studienleistung
Studieninformation
23-MeWi-HM3a Mathematisch-linguistische Sprachmodellierung Lehrveranstaltung III Studienleistung
Studieninformation
Lehrveranstaltung IV Studienleistung
Studieninformation
- benotete Prüfungsleistung Studieninformation
23-MeWi-HM3a_a Mathematisch-linguistische Sprachmodellierung Lehrveranstaltung 2 Studienleistung
Studieninformation
Lehrveranstaltung 3 Studienleistung
Studieninformation

Die verbindlichen Modulbeschreibungen enthalten weitere Informationen, auch zu den "Leistungen" und ihren Anforderungen. Sind mehrere "Leistungsformen" möglich, entscheiden die jeweiligen Lehrenden darüber.


Keine Konkretisierungen vorhanden

Lernraum (E-Learning)

Zu dieser Veranstaltung existiert ein Lernraum im E-Learning System. Lehrende können dort Materialien zu dieser Lehrveranstaltung bereitstellen:

registrierte Anzahl: 33
Dies ist die Anzahl der Studierenden, die die Veranstaltung im Stundenplan gespeichert haben. In Klammern die Anzahl der über Gastaccounts angemeldeten Benutzer*innen.
Adresse:
SS2021_231007@ekvv.uni-bielefeld.de
Lehrende, ihre Sekretariate sowie für die Pflege der Veranstaltungsdaten zuständige Personen können über diese Adresse E-Mails an die Veranstaltungsteilnehmer*innen verschicken. WICHTIG: Sie müssen verschickte E-Mails jeweils freischalten. Warten Sie die Freischaltungs-E-Mail ab und folgen Sie den darin enthaltenen Hinweisen.
Falls die Belegnummer mehrfach im Semester verwendet wird können Sie die folgende alternative Verteileradresse nutzen, um die Teilnehmer*innen genau dieser Veranstaltung zu erreichen: VST_261234993@ekvv.uni-bielefeld.de
Reichweite:
21 Studierende direkt per E-Mail erreichbar
Hinweise:
Weitere Hinweise zu den E-Mailverteilern
Letzte Änderung Grunddaten/Lehrende:
Mittwoch, 7. April 2021 
Letzte Änderung Zeiten:
Dienstag, 26. Januar 2021 
Letzte Änderung Räume:
Dienstag, 26. Januar 2021 
Art(en) / SWS
S / 2
Einrichtung
Fakultät für Linguistik und Literaturwissenschaft
Fragen oder Korrekturen?
Fragen oder Korrekturwünsche zu dieser Veranstaltung?
Planungshilfen
Terminüberschneidungen für diese Veranstaltung
Link auf diese Veranstaltung
Wenn Sie diese Veranstaltungsseite verlinken wollen, so können Sie einen der folgenden Links verwenden. Verwenden Sie nicht den Link, der Ihnen in Ihrem Webbrowser angezeigt wird!
Der folgende Link verwendet die Veranstaltungs-ID und ist immer eindeutig:
https://ekvv.uni-bielefeld.de/kvv_publ/publ/vd?id=261234993
Seite zum Handy schicken
Klicken Sie hier, um den QR Code zu zeigen
Scannen Sie den QR-Code: QR-Code vergrößern
ID
261234993