Durch die Sequenzierung einer Vielzahl kompletter Organismen wurden in den vergangenen Jahren große Mengen an biologischen Sequenzdaten erzeugt. Die nachfolgende Herausforderung besteht nun u.a. in der Interpretation dieser Daten. Für therapeutische Zwecke ist die Klassifikation der Proteinsequenzen hinsichtlich ihrer Zugehörigkeit zu Familien bzw. Superfamilien von essentiellem Interesse.
Probabilistische Techniken, speziell Hidden Markov Modelle (HMMs) stellen den derzeit leistungsfähigsten Ansatz zur Sequenzanalyse dar. Dabei wird ein statistisches Modell für ein multiples Alignment von Sequenzen einer bestimmten Proteinfamilie erstellt welches anschließend für die Klassifikation noch unbekannter Sequenzen benutzt wird.
Die Datengrundlage aktueller HMMs im Kontext der Bioinformatik stellen o.g. diskrete Sequenzdaten dar. Die Erfahrungen aus anderen Anwendungsbereichen von HMMs (z.B. in der automatischen Spracherkennung) zeigen, daß die Leistungsfähigkeit kontinuierlicher Modelle die der diskreten deutlich übersteigt. Der Übergang von diskreten Sequenz-HMMs zu HMMs auf der Basis "kontinuierlicher" Daten ist Gegenstand aktueller Forschungsarbeiten. Im Fokus des angebotenen Projektes steht die Untersuchung der Leistungsfähigkeit von alternativen Datenrepräsentationen für die Sequenzanalyse. Hierfür sollen Proteindaten als Bildsignale verstanden werden und Texturmerkmale als Grundlage für die probabilistischen Modelle benutzt werden.
Dieses Projekt richtet sich an motivierte Studierende im Hauptstudium, die Kenntnisse und Interesse an Musterklassifikation / Bildverarbeitung bzw. Bioinformatik haben. Da die entwickelten Sequenzrepräsentationen implementiert und evaluiert werden sollen, sind gute Programmierkenntnisse (C) hilfreich. Die Entwicklung erfolgt aufgrund einer bereits existierenden Entwicklungsumgebung für HMMs.
Programmierkenntnisse in C, Vorkenntnisse aus den Bereichen Musterklassifikation / Bildverarbeitung
Rhythmus | Tag | Uhrzeit | Format / Ort | Zeitraum | |
---|---|---|---|---|---|
wöchentlich | n. V. | M5-116 |
Studiengang/-angebot | Gültigkeit | Variante | Untergliederung | Status | Sem. | LP | |
---|---|---|---|---|---|---|---|
Bioinformatik und Genomforschung / Bachelor | (Einschreibung bis SoSe 2011) | Modul 11 | Wahlpflicht | 6. | 6 | unbenotet begrenzte Teilnehmerzahl | |
Naturwissenschaftliche Informatik / Diplom | (Einschreibung bis SoSe 2004) | BioI; ME | begrenzte Teilnehmerzahl HS |