In der Veranstaltung sollen fortgeschrittene Techniken der automatischen Sprachverarbeitung theoretisch erarbeitet und in den Übungen in Kleingruppen implementiert und evaluiert werden. Als Basis dient die Entwicklungsumgebung ESMERALDA, deren Möglichkeiten zur Erstellung statistischer Signalanalysesysteme in der Vorlesung ausführlich vorgestellt werden.
Folgende Fragestellungen können im Rahmen der Veranstaltung bearbeitet werden, wobei eigene Themenvorschläge der Teilnehmer willkommen sind:
Sprechererkennung
In der Sprechererkennung unterscheidet man zwischen Identifikation eines Sprechers von mehreren bekannten und Verifikation eines bestimmten Sprechers. In beiden Fällen kommen sogenannte Generalisierte Mischverteilungsmodelle (GMMs) zur Modellierung der sprecherspezifischen Eigenschaften zum Einsatz. Mit Hilfe eines sogenannten Hintergrundmodells wird entschieden, ob statt einer Klassifikation eine Rückweisung erfolgt.
"Topic Spotting"
Statistische Sprachmodellierungstechniken können verwendet werden, um den thematischen Kontext einer Äußerung oder eines Textes zu bestimmen. Dies kann dazu verwendet werden, Web-Inhalte zu klassifizieren oder spezifischere Sprachmodelle für die Erkennung einzusetzen.
Automatische Generierung von Lautumschrift
Automatische Spracherkennungssystemen arbeiten mit einem fest vorgegebenen Lexikon von Wortvollformen. Für diese müssen neben der Orthographie auch die Umsetzung in eine Folge von Sprachlauten definiert werden. Dies geschieht in der Regel mit nicht unbeträchtlichem Aufwand von Expertenhand. Mit Hilfe statistischer Verfahren lassen sich solche Konvertierungen orthographischer in phonetische Transkriptionen allerdings auch automatisch erstellen. Als Voraussetzung dient eine hinreichend umfangreiche Datenbank bereits phonetisch transkribierter Wortformen.
Wavelet-basierte Merkmale für die Spracherkennung
In der automatischen Spracherkennung bildet derzeit die Frequenzanalyse die Grundlage der verwendeten Merkmalsberechnungsvorschriften. In anderen Bereichen der Mustererkennung wurden dagegen Wavelets mit großem Erfolg eingesetzt. Da diese Technik genauso wie die cepstrale Analyse die Möglichkeit einer vergröberten - und damit auf die "relevanten" Charakteristiken beschränkten - Signalrepräsentation bietet, ist ihr Einsatz für die Spracherkennung äußerst vielversprechend.
Vorherige Teilnahme an der Vorlesung `Spracherkennung' empfohlen, Programmierkenntnisse (C) erforderlich.
Rhythmus | Tag | Uhrzeit | Format / Ort | Zeitraum |
---|
Studiengang/-angebot | Gültigkeit | Variante | Untergliederung | Status | Sem. | LP | |
---|---|---|---|---|---|---|---|
Naturwissenschaftliche Informatik / Diplom | (Einschreibung bis SoSe 2004) | Sprachverarbeitung; Robotik | HS | ||||
Naturwissenschaftliche Informatik / Diplom | (Einschreibung bis SoSe 2004) | ME; WBS; MMK | HS |