Die automatische Verarbeitung von Texten und Dialogen ist für zahlreiche und sehr verschiedene Anwendungen relevant - von einfachen Rechtschreibkorrekturprogrammen und Chatbots bis hin zu Suchmaschinen oder Übersetzungs- und Dialogsystemen. Vielen dieser Anwendungen liegen heute sehr ähnliche, datengetriebene Verfahren und Maschinelles Lernen zu Grunde, da diese z.B. für die Auflösung von Ambiguitäten oder das Verarbeiten eines sehr großen Vokabulars geeignet sind. Zugleich haben sprachlichen Daten Eigenschaften, die für allgemeine Methoden des Maschinellen Lernens eher herausfordernd sind (Sparsity, lange Abhängigkeiten, etc.).
Dieser Kurs führt in grundlegende statistische Methoden und Lernverfahren der Computerlinguistik ein -- z.B. distributionelle Semantik, Textklassifikation mit Bag-of-Words-Modellen oder Tagging mit Hidden-Markov-Modellen. Dabei besprechen wir, für welche Probleme und Anwendungen der Computerlinguistik diese Methoden geeignet sind und wie sie evaluiert werden können. Außerdem werfen wir gemeinsam einen Blick auf die Implementierung einiger ausgewählter Aspekte und Anwendungen in Python. In der dazugehörigen Übung wird ein vertiefter Fokus auf die praktische Umsetzung gelegt.
Empfohlene Vorkenntnisse:
- Steven Bird, Ewan Klein und Edward Loper. 2009. Natural Language Processing with Python. O’Reilly Media, Sebastopol, CA. Freie an Python 3 und NLK 3 angepasste Onlineversion von 2020 unter http://www.nltk.org/book
- Dan Jurafsky and James H. Martin. Speech and Language Processing (3rd ed. draft). Aktueller Draft verfügbar unter https://web.stanford.edu/~jurafsky/slp3/
- Christopher Manning und Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT press
Frequency | Weekday | Time | Format / Place | Period | |
---|---|---|---|---|---|
weekly | Di | 14-16 | E0-180 | 08.04.-19.07.2024 |
Date | Time | Format / Room | Comment about examination |
---|---|---|---|
Tuesday, July 30, 2024 | 14-16 | X-E0-222 | 1. Termin |
Tuesday, September 17, 2024 | 14-16 | X-E0-222 | 2. Termin |
Module | Course | Requirements | |
---|---|---|---|
23-CL-BaCL2.2 Methoden der angewandten Computerlinguistik | Methoden der angewandten Computerlinguistik | Student information | |
- | Graded examination | Student information | |
23-TXT-BaCL5 Vertiefungsmodul | Veranstaltung aus dem Vertiefungsbereich | Study requirement
|
Student information |
39-M-Inf-INT-bas Basics of Interaction Technology | Basics of Interaction Technology: Seminar | Student information | |
- | Ungraded examination | Student information |
The binding module descriptions contain further information, including specifications on the "types of assignments" students need to complete. In cases where a module description mentions more than one kind of assignment, the respective member of the teaching staff will decide which task(s) they assign the students.
Für den Erhalt der Studienleistung müssen regelmäßig, ergo wöchentlich, praktische Programmier- oder Datenanalyseaufgaben mit erkennbarem Bemühen berarbeitet werden.
A corresponding course offer for this course already exists in the e-learning system. Teaching staff can store materials relating to teaching courses there: