230138 Projektseminar "Digitales Fachsprachenlexikon" (S) (SoSe 2007)

Inhalt, Kommentar

In der ersten Sitzung findet eine Einführung in die Programmiersprache Java statt, in der alle nötigen Grundlagen für die einzelnen Projekte vermittelt werden. Programmierkenntnisse für die Projektarbeit sind nicht zwingend erforderlich. Alle Projektgruppen werden an die Thematik zur Bearbeitung und Lösung der Projektaufgaben herangeführt.

Das Projektseminar "Digitales Fachsprachenlexikon" knüpft an die Arbeit des A4-Teilprojekts der DFG-Forschergruppe "Texttechnologische Informationsmodellierung" an und hat die Entwicklung eines webbasierten Fachsprachenlexikons zum Ziel. Analog zu dem Leipziger Wortschatzprojekt (http://wortschatz.uni-leipzig.de/) sollen für im Web vertretene Fachsprachen und Genres je eigene Lexika erstellt werden.

Die Projektarbeit soll den Studierenden einen Einblick in die angewandte Computerlinguistik gewähren, indem beginnend mit der Materialsammlung, -aufbereitung (Tokenisierung, Lemmatisierung, Filterung) eine auf Wortkookkurrenzen aufbauende Darstellung webbasierter Fachsprachen entwickelt wird, die anschließend durch eine webbasierte Schnittstelle (mittels PHP und MySQL) für Benutzer zugänglich gemacht werden soll. Durch die Projektarbeit soll eine Brücke zwischen dem texttechnologischen Wissen und seiner praktischen Anwendung geschlagen werden. Das Projektseminar bietet einen Einstieg in die praktische Linguistik, indem den Studierenden die Möglichkeit gegeben wird, eine praxisorientierte texttechnologische Aufgabe in Gruppenarbeit zu bewältigen.

Das Projektseminar ist in eine Folge von teils aufeinander aufbauenden Teilprojekten gegliedert. Dabei sollen weitestgehend bereits existierende Tools zur Bewältigung der Aufgaben wiederverwendet werden. Dazu ist jeweils eine eingehende Tool-Recherche notwendig sowie Programmierarbeit zur Aufbereitung der Daten. Programmierarbeit erfordert ferner die Berechnung statistischer Maße. Als Programmiersprachen kommt neben Java (und wahlweise auch C++) PHP zur Programmierung der webbasierten Schnittstelle zum Einsatz. Die Teilaufgaben gliedern sich im Einzelnen wie folgt:

1. Erstellung fachspezifischer Korpora als Startpunkt des Erstellungsprozesses (geringe Vorkenntnisse erforderlich):
o Auswahl und Download relevanter Websites
o Vereinheitlichung der Zeichencodierung

2. Aufbereitung der Korpora (Tokenisierung, Lemmatisierung) (Programmierarbeit für Formatanpassungen und Konvertierungen):
o Recherche und Einbindung existierender Programme zur Tokenisierung und Lemmatisierung des Rohkorpus

3. Selektion der fachspezifischen Termini (Programmieraufwand zur Berechnung von Maßen aus der Statistik):
o Recherche und Einbindung geeigneter Tools und Methoden
o Möglicher Ansatz: Wortverteilungen/Inverse Dokumentfrequenz:

4. Berechnung der Kookkurrenzen und Annotation der Daten (Anpassung der Datenformate, evtl. Berechnung von Maßen):
o Einbindung existierender Tools soweit möglich
o Anpassung der Datenformate

5. Modellierung einer relationalen Datenbank zur Repräsentation der Daten (DB- und SQL-Kenntnisse von Vorteil):
o Modellierung einer Datenbank für Repräsentation der Lexika
o Ansprechpartner für andere Projekte zur DB-Anbindung

6. Visualisierung (PHP/Html ¿ Kenntnisse im Zusammenhang mit SQL):
o Programmierung einer PHP-basierten Webschnittstelle zur Verfügbarmachung und Visualisierung der Daten

Lehrende

Termine ( Kalendersicht )

Rhythmus Tag Uhrzeit Format / Ort Zeitraum  

Zeige vergangene Termine >>

Fachzuordnungen

Studiengang/-angebot Gültigkeit Variante Untergliederung Status Sem. LP  
Linguistik / Bachelor (Einschreibung bis SoSe 2011) Kern- und Nebenfach BaLinTT4; BaLinTT4.1   4/12  
Medienwissenschaft, interdisziplinäre / Master (Einschreibung bis SoSe 2014) Modul 3 Wahlpflicht 3  

Keine Konkretisierungen vorhanden
Kein Lernraum vorhanden
registrierte Anzahl: 7
Dies ist die Anzahl der Studierenden, die die Veranstaltung im Stundenplan gespeichert haben. In Klammern die Anzahl der über Gastaccounts angemeldeten Benutzer*innen.
Adresse:
SS2007_230138@ekvv.uni-bielefeld.de
Lehrende, ihre Sekretariate sowie für die Pflege der Veranstaltungsdaten zuständige Personen können über diese Adresse E-Mails an die Veranstaltungsteilnehmer*innen verschicken. WICHTIG: Sie müssen verschickte E-Mails jeweils freischalten. Warten Sie die Freischaltungs-E-Mail ab und folgen Sie den darin enthaltenen Hinweisen.
Falls die Belegnummer mehrfach im Semester verwendet wird können Sie die folgende alternative Verteileradresse nutzen, um die Teilnehmer*innen genau dieser Veranstaltung zu erreichen: VST_3672588@ekvv.uni-bielefeld.de
Reichweite:
Keine Studierenden per E-Mail erreichbar
Hinweise:
Weitere Hinweise zu den E-Mailverteilern
Letzte Änderung Grunddaten/Lehrende:
Freitag, 11. Dezember 2015 
Letzte Änderung Zeiten:
Mittwoch, 14. März 2007 
Letzte Änderung Räume:
Mittwoch, 14. März 2007 
Art(en) / SWS
S / 4
Einrichtung
Fakultät für Linguistik und Literaturwissenschaft
Fragen oder Korrekturen?
Fragen oder Korrekturwünsche zu dieser Veranstaltung?
Planungshilfen
Terminüberschneidungen für diese Veranstaltung
Link auf diese Veranstaltung
Wenn Sie diese Veranstaltungsseite verlinken wollen, so können Sie einen der folgenden Links verwenden. Verwenden Sie nicht den Link, der Ihnen in Ihrem Webbrowser angezeigt wird!
Der folgende Link verwendet die Veranstaltungs-ID und ist immer eindeutig:
https://ekvv.uni-bielefeld.de/kvv_publ/publ/vd?id=3672588
Seite zum Handy schicken
Klicken Sie hier, um den QR Code zu zeigen
Scannen Sie den QR-Code: QR-Code vergrößern
ID
3672588