Die Distanz zu Objekten in der Umgebung ist eine Schlüsselinformation für mobile Roboter, denn sie
ermöglicht Hindernisvermeidung als eine elementare Funktion und unterstützt die Lokalisierung, Navigation
und die Interaktion mit Objekten in der Umwelt.
Laserscanner können eine hohe Präzision bieten, müssen aber für weitergehende Aufgaben, z. B.
Objekterkennung, um zusätzliche Sensorsysteme ergänzt werden. Eine Alternative stellen Kameras mit
Fischaugenoptik dar, die eine Rundumsicht der Umgebung bieten. Besonders kostengünstig sind dabei
monokulare Kamerasysteme; hierbei können die Entfernungen zu Objekten in der Umgebung aus den
Pixelwerten lediglich geschätzt werden. Die Arbeit von Yang et al. [1] zeigt, dass pixelweise
Tiefenschätzungen von monokularen Kamerasystemen mit Hilfe von neuronalen Netzwerken ausreichend
sind, um die Lokalisierung mobiler Roboter zu unterstützen.
In diesem Projekt soll untersucht werden, ob die Tiefenschätzung mit einem neuronalen Netz auf Basis
monokularer Panoramabilder ausreichend ist, um Hindernisse in der Umgebung eines mobilen Roboters
konsistent zu erkennen.
Wir schlagen MonoDepth [5] als Netzwerk-Architektur vor. Dieser Ansatz soll mit den Empfehlungen von de
La Garanderie et al. [3] so abgewandelt werden, dass es für die Verarbeitung von Panoramabildern geeignet
ist. Code für die Netzwerkarchitektur ist auf github verfügbar (https://github.com/gdlg/panoramic-depth-esti
mation; bei einer etwaigen Veröffentlichung muss auf die restriktive Lizenz geachtet werden).
Die Architektur muss vor dem Einsatz nachtrainiert werden. Als Grundlage dafür können z. B. Datenbanken
von einer Fischaugenkamera verwendet werden, die mit einem Flächenportal in verschiedenen
Innenräumen der Universität aufgenommen wurden. Da MonoDepth mit Stereobildern trainiert wird,
müssen unabhängig von der gewählten Datenquelle automatisiert Bildpaare aus der Datenbank
zusammengestellt werden.
Dabei kann die Baseline fest oder variabel gewählt werden.
Die pixelweisen Tiefenschätzungen der Netzwerkarchitektur müssen auf eine zweidimensionale Ansicht
reduziert werden, z. B., indem die Schätzungen aus der Horizontregion entnommen werden. Diese liefern
dann für eine aktuelle Ansicht den spaltenweisen Abstand zum nächsten Hindernis.
Wir vermuten, dass diese Schätzungen auch über kurze Zeiträume inkonsistent sein werden. Um eine
konsistente Hinderniskarte aufzubauen, sollen Entfernungspunkte als zusätzliche Messungen in ein
Smoothing-and-Mapping-System aufgenommen werden (entweder global oder lokal mit einem Fenster,
nach dem Knoten aus dem Graph entfernt werden). Als weitere Messungen dienen die Odometrie des
Roboters und eine relative Posenschätzung mit MinWarping. Als Implementation für den Smoothing-and-
Mapping-Algorithmus kann GTSAM verwendet werden (https://gtsam.org).
Eine optionale Erweiterung des Projekts ist eine Live-Demo mit einem Indoor-Roboter. Hierbei soll die lokale
Hinderniskarte genutzt werden, um eine einfache Hindernisvermeidung zu implementieren. Dazu sollte die
Geschwindigkeit des Netzwerks hoch genug sein, um Bilder in Echtzeit zu verarbeiten; ggf. kann das
Netzwerk dazu mit Pruning [4] verkleinert werden.
Rhythmus | Tag | Uhrzeit | Format / Ort | Zeitraum |
---|
Modul | Veranstaltung | Leistungen | |
---|---|---|---|
39-M-Inf-P_ver1 Projekt | Projekt | unbenotete Prüfungsleistung
|
Studieninformation |
Die verbindlichen Modulbeschreibungen enthalten weitere Informationen, auch zu den "Leistungen" und ihren Anforderungen. Sind mehrere "Leistungsformen" möglich, entscheiden die jeweiligen Lehrenden darüber.