392234 Project: Teaching Robots Through Human Preferences: Rapid Task Adaption with a 3D-printed Arm (Pj) (WiSe 2025/2026)

Inhalt, Kommentar

Robots often struggle with new tasks because explicitly defining rewards, what the robot should or shouldn't do, is challenging. However, humans can easily identify good and bad behaviors just by looking at short video clips of robots performing tasks. In preference learning, we leverage this intuition: by collecting a small set of these human preferences, a robot can efficiently learn new tasks even without explicitly defined rewards. This project investigates how efficiently we can learn a useful reward signal from a small set of human-labeled video comparisons. Starting from demonstrations of a "right-handed" drawer-opening task, you will collect labeled preference examples to quickly adapt the robot to an unseen, mirrored "left-handed" drawer task. The learned preference model (following the PEBBLE approach) will be integrated into an existing off-policy RL algorithm, allowing rapid policy fine-tuning.

This is a perfect project for students interested in human-robot interaction, RL, and reward learning. You will gain practical experience with state-of-the-art methods and directly explore how minimal human guidance enhances robotic learning efficiency. When applicable, your results can be published as a short benchmark note or as an appendix to an existing paper.

For more details or to apply, feel free to contact me directly via email or in-person.

Teilnahmevoraussetzungen, notwendige Vorkenntnisse

You should be comfortable with PyTorch and a python-based simulation framework, familiarity with basic RL is a plus. You should also be willing to collect and annotate short video clips using provided tools. The project provides you with a prebuilt 3D printed WidowX arm, ready-to-use MuJoCo simulation environments, baseline RL implementations, and all necessary computational resources (though bringing your own GPU is a plus).

Lehrende

Termine ( Kalendersicht )

Rhythmus Tag Uhrzeit Format / Ort Zeitraum  
nach Vereinbarung n.V.   13.10.2025-06.02.2026

Fachzuordnungen

Modul Veranstaltung Leistungen  
39-M-Inf-P Projekt Projekt unbenotete Prüfungsleistung
Studieninformation

Die verbindlichen Modulbeschreibungen enthalten weitere Informationen, auch zu den "Leistungen" und ihren Anforderungen. Sind mehrere "Leistungsformen" möglich, entscheiden die jeweiligen Lehrenden darüber.


Enable rapid adaptation of a simulated robot to a new task using only minimal human preference feedback based on state-of-the-art human-in-the-loop RL methods.

Kein E-Learningangebot vorhanden
Adresse:
WS2025_392234@ekvv.uni-bielefeld.de
Lehrende, ihre Sekretariate sowie für die Pflege der Veranstaltungsdaten zuständige Personen können über diese Adresse E-Mails an die Veranstaltungsteilnehmer*innen verschicken. WICHTIG: Sie müssen verschickte E-Mails jeweils freischalten. Warten Sie die Freischaltungs-E-Mail ab und folgen Sie den darin enthaltenen Hinweisen.
Falls die Belegnummer mehrfach im Semester verwendet wird können Sie die folgende alternative Verteileradresse nutzen, um die Teilnehmer*innen genau dieser Veranstaltung zu erreichen: VST_568320566@ekvv.uni-bielefeld.de
Hinweise:
Weitere Hinweise zu den E-Mailverteilern
Letzte Änderung Grunddaten/Lehrende:
Sonntag, 15. Juni 2025 
Letzte Änderung Zeiten:
Sonntag, 15. Juni 2025 
Letzte Änderung Räume:
Sonntag, 15. Juni 2025 
Art(en) / SWS
Projekt (Pj) / 2
Einrichtung
Technische Fakultät
Fragen oder Korrekturen?
Fragen oder Korrekturwünsche zu dieser Veranstaltung?
Planungshilfen
Terminüberschneidungen für diese Veranstaltung
Link auf diese Veranstaltung
Wenn Sie diese Veranstaltungsseite verlinken wollen, so können Sie einen der folgenden Links verwenden. Verwenden Sie nicht den Link, der Ihnen in Ihrem Webbrowser angezeigt wird!
Der folgende Link verwendet die Veranstaltungs-ID und ist immer eindeutig:
https://ekvv.uni-bielefeld.de/kvv_publ/publ/vd?id=568320566
Seite zum Handy schicken
Klicken Sie hier, um den QR Code zu zeigen
Scannen Sie den QR-Code: QR-Code vergrößern
ID
568320566