230138 Projektseminar "Digitales Fachsprachenlexikon" (S) (SoSe 2007)

Contents, comment

In der ersten Sitzung findet eine Einführung in die Programmiersprache Java statt, in der alle nötigen Grundlagen für die einzelnen Projekte vermittelt werden. Programmierkenntnisse für die Projektarbeit sind nicht zwingend erforderlich. Alle Projektgruppen werden an die Thematik zur Bearbeitung und Lösung der Projektaufgaben herangeführt.

Das Projektseminar "Digitales Fachsprachenlexikon" knüpft an die Arbeit des A4-Teilprojekts der DFG-Forschergruppe "Texttechnologische Informationsmodellierung" an und hat die Entwicklung eines webbasierten Fachsprachenlexikons zum Ziel. Analog zu dem Leipziger Wortschatzprojekt (http://wortschatz.uni-leipzig.de/) sollen für im Web vertretene Fachsprachen und Genres je eigene Lexika erstellt werden.

Die Projektarbeit soll den Studierenden einen Einblick in die angewandte Computerlinguistik gewähren, indem beginnend mit der Materialsammlung, -aufbereitung (Tokenisierung, Lemmatisierung, Filterung) eine auf Wortkookkurrenzen aufbauende Darstellung webbasierter Fachsprachen entwickelt wird, die anschließend durch eine webbasierte Schnittstelle (mittels PHP und MySQL) für Benutzer zugänglich gemacht werden soll. Durch die Projektarbeit soll eine Brücke zwischen dem texttechnologischen Wissen und seiner praktischen Anwendung geschlagen werden. Das Projektseminar bietet einen Einstieg in die praktische Linguistik, indem den Studierenden die Möglichkeit gegeben wird, eine praxisorientierte texttechnologische Aufgabe in Gruppenarbeit zu bewältigen.

Das Projektseminar ist in eine Folge von teils aufeinander aufbauenden Teilprojekten gegliedert. Dabei sollen weitestgehend bereits existierende Tools zur Bewältigung der Aufgaben wiederverwendet werden. Dazu ist jeweils eine eingehende Tool-Recherche notwendig sowie Programmierarbeit zur Aufbereitung der Daten. Programmierarbeit erfordert ferner die Berechnung statistischer Maße. Als Programmiersprachen kommt neben Java (und wahlweise auch C++) PHP zur Programmierung der webbasierten Schnittstelle zum Einsatz. Die Teilaufgaben gliedern sich im Einzelnen wie folgt:

1. Erstellung fachspezifischer Korpora als Startpunkt des Erstellungsprozesses (geringe Vorkenntnisse erforderlich):
o Auswahl und Download relevanter Websites
o Vereinheitlichung der Zeichencodierung

2. Aufbereitung der Korpora (Tokenisierung, Lemmatisierung) (Programmierarbeit für Formatanpassungen und Konvertierungen):
o Recherche und Einbindung existierender Programme zur Tokenisierung und Lemmatisierung des Rohkorpus

3. Selektion der fachspezifischen Termini (Programmieraufwand zur Berechnung von Maßen aus der Statistik):
o Recherche und Einbindung geeigneter Tools und Methoden
o Möglicher Ansatz: Wortverteilungen/Inverse Dokumentfrequenz:

4. Berechnung der Kookkurrenzen und Annotation der Daten (Anpassung der Datenformate, evtl. Berechnung von Maßen):
o Einbindung existierender Tools soweit möglich
o Anpassung der Datenformate

5. Modellierung einer relationalen Datenbank zur Repräsentation der Daten (DB- und SQL-Kenntnisse von Vorteil):
o Modellierung einer Datenbank für Repräsentation der Lexika
o Ansprechpartner für andere Projekte zur DB-Anbindung

6. Visualisierung (PHP/Html ¿ Kenntnisse im Zusammenhang mit SQL):
o Programmierung einer PHP-basierten Webschnittstelle zur Verfügbarmachung und Visualisierung der Daten

Teaching staff

Dates ( Calendar view )

Frequency Weekday Time Format / Place Period  

Show passed dates >>

Subject assignments

Degree programme/academic programme Validity Variant Subdivision Status Semester LP  
Linguistik / Bachelor (Enrollment until SoSe 2011) Kern- und Nebenfach BaLinTT4; BaLinTT4.1   4/12  
Medienwissenschaft, interdisziplinäre / Master (Enrollment until SoSe 2014) Modul 3 Wahlpflicht 3  

No more requirements
No E-Learning Space
Registered number: 7
This is the number of students having stored the course in their timetable. In brackets, you see the number of users registered via guest accounts.
Address:
SS2007_230138@ekvv.uni-bielefeld.de
This address can be used by teaching staff, their secretary's offices as well as the individuals in charge of course data maintenance to send emails to the course participants. IMPORTANT: All sent emails must be activated. Wait for the activation email and follow the instructions given there.
If the reference number is used for several courses in the course of the semester, use the following alternative address to reach the participants of exactly this: VST_3672588@ekvv.uni-bielefeld.de
Coverage:
No students to be reached via email
Notes:
Additional notes on the electronic mailing lists
Last update basic details/teaching staff:
Friday, December 11, 2015 
Last update times:
Wednesday, March 14, 2007 
Last update rooms:
Wednesday, March 14, 2007 
Type(s) / SWS (hours per week per semester)
S / 4
Department
Faculty of Linguistics and Literary Studies
Questions or corrections?
Questions or correction requests for this course?
Planning support
Clashing dates for this course
Links to this course
If you want to set links to this course page, please use one of the following links. Do not use the link shown in your browser!
The following link includes the course ID and is always unique:
https://ekvv.uni-bielefeld.de/kvv_publ/publ/vd?id=3672588
Send page to mobile
Click to open QR code
Scan QR code: Enlarge QR code
ID
3672588