In dieser Veranstaltung werden insbesondere Daten- bzw. Statistik-basierte Methoden der Computerlinguistik sowohl theoretisch als auch praktisch erarbeitet. Der Fokus der Veranstaltung liegt dabei auf der Berechnung linguistischer Struktur, so z.B. der Wahrscheinlichkeit von Wortfolgen, dem Tagging mit Wortartmarkierungen, dem Zuweisen von syntaktischer Struktur zu Sätzen sowie thematischer Struktur zu Texten. Die Methoden werden theoretisch eingeführt und sollen dann durch die Umsetzung in Computerprogramme (in Python) vertieft werden. Ziel der Veranstaltung ist, aktuelle Methoden, so wie sie in Forschung und Industrie (Google, Microsoft, Yahoo, etc.) verwendet werden, zu verstehen.
Für die Teilnahme an der Veranstaltung wünschenswert sind gewisse mathematische Grundfähigkeiten und eine allgemeine Bereitschaft, diese weiter zu vertiefen, sowie Grundfähigkeiten in der Programmierung.
Die Veranstaltung ist in sich abgeschlossen, wird allerdings ergänzt durch die Veranstaltung "Fortgeschrittene Methoden der angewandten Computerlinguistik II" im Sommersemester, in der es speziell um Klassifikation geht.
Erwartet werden Programmierkenntnisse in Python im Umfang, wie sie im Programmierkurs im BA erworben werden (oder die Bereitschaft, sich diese im Eigenstudium anzueignen) und die Bereitschaft, sich mit mathematischen Methoden auseinanderzusetzen.
Jurafsky & Martin, Speech and Language Processing
Manning & Schütze, Foundations of Statistical Language Processing
Rhythmus | Tag | Uhrzeit | Format / Ort | Zeitraum |
---|
Studiengang/-angebot | Gültigkeit | Variante | Untergliederung | Status | Sem. | LP | |
---|---|---|---|---|---|---|---|
Linguistik: Kommunikation, Kognition und Sprachtechnologie / Master | (Einschreibung bis WiSe 19/20) | 23-LIN-MaCL1 | 3 |
Erfolgreiche und regelmäßige Bearbeitung der Aufgaben, ggfs. Abschlußprojekt.