Das Projektseminar "Digitales Fachsprachenlexikon" knüpft an die Arbeit der Teilprojekte A2 und A4 der DFG-Forschergruppe "Texttechnologische Informationsmodellierung" an und hat die Entwicklung eines webbasierten Fachsprachenlexikons zum Ziel. Analog zu dem Leipziger Wortschatzprojekt (http://wortschatz.uni-leipzig.de/) sollen für im Web vertretene Fachsprachen und Genres eigene Lexika und Kollokations-Statistiken erstellt werden.
Die Projektarbeit soll den Studierenden einen Einblick in die angewandte Computerlinguistik und Texttechnologie gewähren, indem beginnend mit der Materialsammlung, -aufbereitung (Tokenisierung, Lemmatisierung, Filterung) eine auf Wortkookkurrenzen aufbauende Darstellung von Fachsprachen entwickelt wird, die anschließend durch eine Schnittstelle für Benutzer zugänglich gemacht werden soll. Durch die Projektarbeit soll eine Brücke zwischen dem texttechnologischen Wissen und seiner praktischen Anwendung geschlagen werden. Das Projektseminar bietet einen Einstieg in die praktische Linguistik, indem den Studierenden die Möglichkeit gegeben wird, eine praxisorientierte texttechnologische Aufgabe in Gruppenarbeit zu bewältigen.
Das Projektseminar ist in eine Folge von teils aufeinander aufbauenden Teilprojekten gegliedert. Dabei sollen weitestgehend bereits existierende Tools zur Bewältigung der Aufgaben wieder verwendet werden. Programmierarbeit erfordert die Berechnung statistischer Maße. Als Programmiersprachen kommt neben Java (und wahlweise auch C++) PHP zur Programmierung der webbasierten Schnittstelle zum Einsatz. Die Teilaufgaben gliedern sich im Einzelnen wie folgt:
1. Parsen der Rohdaten (Java/C+)
2. Berechnung der Kookkurrenzen und Annotation der Daten (Java/C+/XML/XSLT)
3. Modellierung einer Datenbank/eines Repräsentationsformats zur Speicherung der Daten (RDBMS/native XML DBMS/XQuery)
4. Visualisierung (PHP/XSLT/XHTML)
In der ersten Sitzung findet eine Einführung in die Programmiersprache Java statt, in der alle nötigen Grundlagen für die einzelnen Projekte vermittelt werden. Programmierkenntnisse für die Projektarbeit sind nicht zwingend erforderlich. Kenntnisse in den anderen verwendeten Techniken wie XML/XSLT werden bei Bedarf vermittelt. Alle Projektgruppen werden an die Thematik zur Bearbeitung und Lösung der Projektaufgaben herangeführt.
Frequency | Weekday | Time | Format / Place | Period | |
---|---|---|---|---|---|
weekly | Mi | 12-16 | C01-277/281 | 07.04.-18.07.2008 |
Degree programme/academic programme | Validity | Variant | Subdivision | Status | Semester | LP | |
---|---|---|---|---|---|---|---|
Linguistik / Bachelor | (Enrollment until SoSe 2011) | Kern- und Nebenfach | BaLinTT4; BaLinTT4.1 | 4/12 | |||
Medienwissenschaft, interdisziplinäre / Master | (Enrollment until SoSe 2014) | Modul 3; Modul 6 | Wahlpflicht | 6 |