In der ersten Sitzung findet eine Einführung in die Programmiersprache Java statt, in der alle nötigen Grundlagen für die einzelnen Projekte vermittelt werden. Programmierkenntnisse für die Projektarbeit sind nicht zwingend erforderlich. Alle Projektgruppen werden an die Thematik zur Bearbeitung und Lösung der Projektaufgaben herangeführt.
Das Projektseminar "Digitales Fachsprachenlexikon" knüpft an die Arbeit des A4-Teilprojekts der DFG-Forschergruppe "Texttechnologische Informationsmodellierung" an und hat die Entwicklung eines webbasierten Fachsprachenlexikons zum Ziel. Analog zu dem Leipziger Wortschatzprojekt (http://wortschatz.uni-leipzig.de/) sollen für im Web vertretene Fachsprachen und Genres je eigene Lexika erstellt werden.
Die Projektarbeit soll den Studierenden einen Einblick in die angewandte Computerlinguistik gewähren, indem beginnend mit der Materialsammlung, -aufbereitung (Tokenisierung, Lemmatisierung, Filterung) eine auf Wortkookkurrenzen aufbauende Darstellung webbasierter Fachsprachen entwickelt wird, die anschließend durch eine webbasierte Schnittstelle (mittels PHP und MySQL) für Benutzer zugänglich gemacht werden soll. Durch die Projektarbeit soll eine Brücke zwischen dem texttechnologischen Wissen und seiner praktischen Anwendung geschlagen werden. Das Projektseminar bietet einen Einstieg in die praktische Linguistik, indem den Studierenden die Möglichkeit gegeben wird, eine praxisorientierte texttechnologische Aufgabe in Gruppenarbeit zu bewältigen.
Das Projektseminar ist in eine Folge von teils aufeinander aufbauenden Teilprojekten gegliedert. Dabei sollen weitestgehend bereits existierende Tools zur Bewältigung der Aufgaben wiederverwendet werden. Dazu ist jeweils eine eingehende Tool-Recherche notwendig sowie Programmierarbeit zur Aufbereitung der Daten. Programmierarbeit erfordert ferner die Berechnung statistischer Maße. Als Programmiersprachen kommt neben Java (und wahlweise auch C++) PHP zur Programmierung der webbasierten Schnittstelle zum Einsatz. Die Teilaufgaben gliedern sich im Einzelnen wie folgt:
1. Erstellung fachspezifischer Korpora als Startpunkt des Erstellungsprozesses (geringe Vorkenntnisse erforderlich):
o Auswahl und Download relevanter Websites
o Vereinheitlichung der Zeichencodierung
2. Aufbereitung der Korpora (Tokenisierung, Lemmatisierung) (Programmierarbeit für Formatanpassungen und Konvertierungen):
o Recherche und Einbindung existierender Programme zur Tokenisierung und Lemmatisierung des Rohkorpus
3. Selektion der fachspezifischen Termini (Programmieraufwand zur Berechnung von Maßen aus der Statistik):
o Recherche und Einbindung geeigneter Tools und Methoden
o Möglicher Ansatz: Wortverteilungen/Inverse Dokumentfrequenz:
4. Berechnung der Kookkurrenzen und Annotation der Daten (Anpassung der Datenformate, evtl. Berechnung von Maßen):
o Einbindung existierender Tools soweit möglich
o Anpassung der Datenformate
5. Modellierung einer relationalen Datenbank zur Repräsentation der Daten (DB- und SQL-Kenntnisse von Vorteil):
o Modellierung einer Datenbank für Repräsentation der Lexika
o Ansprechpartner für andere Projekte zur DB-Anbindung
6. Visualisierung (PHP/Html ¿ Kenntnisse im Zusammenhang mit SQL):
o Programmierung einer PHP-basierten Webschnittstelle zur Verfügbarmachung und Visualisierung der Daten
Rhythmus | Tag | Uhrzeit | Format / Ort | Zeitraum |
---|
Studiengang/-angebot | Gültigkeit | Variante | Untergliederung | Status | Sem. | LP | |
---|---|---|---|---|---|---|---|
Linguistik / Bachelor | (Einschreibung bis SoSe 2011) | Kern- und Nebenfach | BaLinTT4; BaLinTT4.1 | 4/12 | |||
Medienwissenschaft, interdisziplinäre / Master | (Einschreibung bis SoSe 2014) | Modul 3 | Wahlpflicht | 3 |