392264 Project: SemanticSpeak: Development of a framework for image/video generation from speech using generative AI (Pj) (SoSe 2026)

Inhalt, Kommentar

Current AI systems can generate images and videos from text prompts. However, generating visual content directly from speech remains a challenging problem, as speech contains not only linguistic information but also tone, emotion, and prosody.
This project explores how semantic representations extracted from speech can drive visual generation using generative AI models.
The goal is to design and implement a prototype pipeline that maps speech features to semantic embeddings compatible with visual generative models. The speech-to-image or speech-to-video generation pipeline will be trained and evaluated using multimodal datasets.

Depending on the number of students and project scope, the project can also include:
• Evaluation of the alignment between generated visuals and spoken input
• Analysis of the influence of prosody and emotion
• Comparison of direct speech-based vs. speech-to-text-based pipelines

Teilnahmevoraussetzungen, notwendige Vorkenntnisse

• Good programming skills with Python
• Basic knowledge of machine learning/deep learning
• Interest in generative AI
• Preferably experience or a very strong interest in speech processing (e.g. speech recognition, speech-to-text, ...)
Upon completion of this project, we will work hand in hand to publish the results in a well-established conference or journal in Human–Computer Interaction (HCI) or Computer Vision (CV)

Lehrende

Termine ( Kalendersicht )

Rhythmus	Tag	Uhrzeit	Format / Ort	Zeitraum
nach Vereinbarung	n.V.			13.04.-24.07.2026	Nach Vereinbarung, online, CITEC oder R.1

Fachzuordnungen

Modul	Veranstaltung	Leistungen
39-M-Inf-AI-app-foc_a Applied Artificial Intelligence (focus) Applied Artificial Intelligence (focus)	Applied Artificial Intelligence (focus): Projekt	Studienleistung	Studieninformation
39-M-Inf-INT-app-foc_a Applied Interaction Technology (focus) Applied Interaction Technology (focus)	Applied Interaction Technology (focus): Projekt	Studienleistung	Studieninformation

Die verbindlichen Modulbeschreibungen enthalten weitere Informationen, auch zu den "Leistungen" und ihren Anforderungen. Sind mehrere "Leistungsformen" möglich, entscheiden die jeweiligen Lehrenden darüber.

Keine Konkretisierungen vorhanden

Kein E-Learningangebot vorhanden

Adresse:: SS2026_392264@ekvv.uni-bielefeld.de; Lehrende, ihre Sekretariate sowie für die Pflege der Veranstaltungsdaten zuständige Personen können über diese Adresse E-Mails an die Veranstaltungsteilnehmer*innen verschicken. WICHTIG: Sie müssen verschickte E-Mails jeweils freischalten. Warten Sie die Freischaltungs-E-Mail ab und folgen Sie den darin enthaltenen Hinweisen.; Falls die Belegnummer mehrfach im Semester verwendet wird können Sie die folgende alternative Verteileradresse nutzen, um die Teilnehmer*innen genau dieser Veranstaltung zu erreichen: VST_720232759@ekvv.uni-bielefeld.de
Hinweise:: Weitere Hinweise zu den E-Mailverteilern

Letzte Änderung Grunddaten/Lehrende:: Dienstag, 26. Mai 2026
Letzte Änderung Zeiten:: Samstag, 25. April 2026
Letzte Änderung Räume:: Samstag, 25. April 2026

Art(en) / SWS: Projekt (Pj) / 2
Einrichtung: Technische Fakultät
Fragen oder Korrekturen?: Fragen oder Korrekturwünsche zu dieser Veranstaltung?
Planungshilfen: Terminüberschneidungen für diese Veranstaltung
Link auf diese Veranstaltung: Wenn Sie diese Veranstaltungsseite verlinken wollen, so können Sie einen der folgenden Links verwenden. Verwenden Sie nicht den Link, der Ihnen in Ihrem Webbrowser angezeigt wird!; Der folgende Link verwendet die Veranstaltungs-ID und ist immer eindeutig:; https://ekvv.uni-bielefeld.de/kvv_publ/publ/vd?id=720232759
Seite zum Handy schicken: Klicken Sie hier, um den QR Code zu zeigen
Scannen Sie den QR-Code:
ID: 720232759

Quicklinks

392264 Project: SemanticSpeak: Development of a framework for image/video generation from speech using generative AI (Pj) (SoSe 2026)

Inhalt, Kommentar

Teilnahmevoraussetzungen, notwendige Vorkenntnisse

Lehrende

Termine ( Kalendersicht )

Fachzuordnungen

Konkretisierung der Anforderungen

E-Learningangebote

Automatischer E-Mailverteiler der Veranstaltung

Änderungen/Aktualität der Veranstaltungsdaten

Sonstiges