231007 Texte aus dem WWW: Datenerhebung und Analyse mit Python (S) (SoSe 2021)

Inhalt, Kommentar

Ein großer Teil des World Wide Web besteht aus textuellen Daten - von Posts in Social Media-Diensten (z.B. Reddit, Twitter) über Blog-Artikel bis hin zu Enzyklopädien wie der Wikipedia. Die Analyse solcher Daten wurde in der Vergangenheit immer wichtiger, sowohl in der Wissenschaft als auch in der freien Wirtschaft. Aufgrund der großen Textmengen ist es jedoch nicht immer möglich, Datensets aus Online-Quellen manuell zusammenzustellen und zu betrachten.

In dieser Veranstaltung werden grundlegende Methoden behandelt, um Text-Daten aus Online-Quellen zu sammeln, zu verarbeiten und hinsichtlich ihres Inhalts zu analysieren. Dabei wird auf gängige Ansätze aus der angewandten Computerlinguistik sowie der Korpuslinguistik zurückgegriffen. Umgesetzt werden diese mithilfe bestehender Module und Frameworks für die Programmiersprache Python. Den Teilnehmenden sollen Kenntnisse und praktische Fähigkeiten vermittelt werden, die es ihnen ermöglichen für eigene (Forschungs-)Vorhaben Datensets mit Texten aus Online-Quellen zusammenzustellen sowie einfache quantitative Analysen anzufertigen.

In den ersten Wochen der Veranstaltung werden notwendige Fähigkeiten in der Programmierung mit Python vermittelt. Im Anschluss werden allgemeine Schritte behandelt, wie Text-Daten für die anschließende automatische Verarbeitung vorbereitet werden können (etwa die Bereinigung / Normalisierung von Text, das Aufteilen von Texten in einzelne Wörter und die Bestimmung von Wortarten). Danach wird gezeigt, wie Textdaten mittels Python aus Online-Quellen extrahiert, gesammelt und abgespeichert werden können. Dabei wird einerseits die Extraktion von Informationen aus HTML-Seiten betrachtet (Web Scraping). Andererseits wird die Verwendung von (Social Media-)APIs für Dienste wie Reddit oder Twitter demonstriert.
Zum Schluss der Veranstaltung werden grundlegende Methoden behandelt, mithilfe derer die gesammelten Texte in Hinsicht auf ihren Inhalt automatisiert ausgewertet werden können. In diesem Rahmen soll auch ein Ausblick auf fortgeschrittenere (etwa Machine Learning-basierte) Methoden erfolgen.

Lehrende

Herr Simeon Junker (geb. Schüz)

Termine ( Kalendersicht )

Rhythmus	Tag	Uhrzeit	Format / Ort	Zeitraum

Zeige vergangene Termine >>

Fachzuordnungen

Modul	Veranstaltung	Leistungen
23-MeWi-HM3 Texttechnologien	Lehrveranstaltung III	Studienleistung	Studieninformation
23-MeWi-HM3a Mathematisch-linguistische Sprachmodellierung	Lehrveranstaltung III	Studienleistung	Studieninformation
	Lehrveranstaltung IV	Studienleistung	Studieninformation
	-	benotete Prüfungsleistung	Studieninformation
23-MeWi-HM3a_a Mathematisch-linguistische Sprachmodellierung	Lehrveranstaltung 2	Studienleistung	Studieninformation
	Lehrveranstaltung 3	Studienleistung	Studieninformation

Die verbindlichen Modulbeschreibungen enthalten weitere Informationen, auch zu den "Leistungen" und ihren Anforderungen. Sind mehrere "Leistungsformen" möglich, entscheiden die jeweiligen Lehrenden darüber.

Keine Konkretisierungen vorhanden

Lernraum (E-Learning)

Zu dieser Veranstaltung existiert ein Lernraum im E-Learning System. Lehrende können dort Materialien zu dieser Lehrveranstaltung bereitstellen:

Lernraum (E-Learning)

registrierte Anzahl: 33: Dies ist die Anzahl der Studierenden, die die Veranstaltung im Stundenplan gespeichert haben. In Klammern die Anzahl der über Gastaccounts angemeldeten Benutzer*innen.

Adresse:: SS2021_231007@ekvv.uni-bielefeld.de; Lehrende, ihre Sekretariate sowie für die Pflege der Veranstaltungsdaten zuständige Personen können über diese Adresse E-Mails an die Veranstaltungsteilnehmer*innen verschicken. WICHTIG: Sie müssen verschickte E-Mails jeweils freischalten. Warten Sie die Freischaltungs-E-Mail ab und folgen Sie den darin enthaltenen Hinweisen.; Falls die Belegnummer mehrfach im Semester verwendet wird können Sie die folgende alternative Verteileradresse nutzen, um die Teilnehmer*innen genau dieser Veranstaltung zu erreichen: VST_261234993@ekvv.uni-bielefeld.de
Reichweite:: 20 Studierende direkt per E-Mail erreichbar
Hinweise:: Weitere Hinweise zu den E-Mailverteilern

Letzte Änderung Grunddaten/Lehrende:: Mittwoch, 7. April 2021
Letzte Änderung Zeiten:: Dienstag, 26. Januar 2021
Letzte Änderung Räume:: Dienstag, 26. Januar 2021

Art(en) / SWS: S / 2
Einrichtung: Fakultät für Linguistik und Literaturwissenschaft
Fragen oder Korrekturen?: Fragen oder Korrekturwünsche zu dieser Veranstaltung?
Planungshilfen: Terminüberschneidungen für diese Veranstaltung
Link auf diese Veranstaltung: Wenn Sie diese Veranstaltungsseite verlinken wollen, so können Sie einen der folgenden Links verwenden. Verwenden Sie nicht den Link, der Ihnen in Ihrem Webbrowser angezeigt wird!; Der folgende Link verwendet die Veranstaltungs-ID und ist immer eindeutig:; https://ekvv.uni-bielefeld.de/kvv_publ/publ/vd?id=261234993
Seite zum Handy schicken: Klicken Sie hier, um den QR Code zu zeigen
Scannen Sie den QR-Code:
ID: 261234993

Quicklinks

231007 Texte aus dem WWW: Datenerhebung und Analyse mit Python (S) (SoSe 2021)

Inhalt, Kommentar

Lehrende

Termine ( Kalendersicht )

Fachzuordnungen

Konkretisierung der Anforderungen

Lernraum

Lernraum (E-Learning)

Teilnehmer*innen

Automatischer E-Mailverteiler der Veranstaltung

Änderungen/Aktualität der Veranstaltungsdaten

Sonstiges