Gestensteuerung erlaubt intuitive Kommunikation

Roboter Gestensteuerung erlaubt intuitive Kommunikation

30.05.2017Autor / Redakteur: Andreas Thoß / Mag. Victoria Sonnenberg

Die Kommunikation mit Robotern wird immer intuitiver. Stichwort: Gestensteuerung. Zwei Fraunhofer-Institute demonstrierten auf der Hannover Messe, wie ein Roboter mithilfe von 3D-Erfassung in Echtzeit und sofortiger Datenanalyse den Menschen erkennt und seine Gesten versteht.

Anbieter zum Thema

Klinkhammer Intralogistics GmbH

Urma AG Werkzeugfabrik

CMS Automatisme

In Zukunft erkennen Roboter die Gesten des Bedieners und reagieren direkt und präzise.
(Bild: Fraunhofer-HHI)

Aus der Produktion von heute ist der Roboter kaum noch wegzudenken, allerdings ist er für gewöhnlich eingezäunt oder mindestens mit einer Überwachung ausgestattet, die bei Annäherung eines Menschen die Geschwindigkeit bis zum Stillstand reduziert. Von einer Interaktion oder Kollaboration kann da keine Rede sein.

Das wird sich ändern. Verschiedene Projekte haben in den letzten Jahren die Kollaboration von Mensch und Maschine untersucht und prognostizieren, dass Mensch und Maschine gerade im Rahmen von Industrie 4.0 öfter und enger zusammenarbeiten werden. In der Fachliteratur werden dafür verschiedene Szenarien diskutiert. Sensitive Roboter sollen den Menschen erkennen und mit ihm interagieren. Dafür sind die Roboterzellen nicht mehr abgeschlossen, es ergeben sich sogenannte „Eingriffszonen“, in denen Mensch und Maschine gemeinsam operieren.

Der Roboter kann dann Assistenzfunktionen übernehmen oder sogar direkt mit dem Menschen zusammenarbeiten. Beide Szenarien setzen eine hochentwickelte Sensorik voraus, bei einer echten Mensch-Maschine-Kollaboration sind die Ansprüche an die Software noch höher, künstliche Intelligenz bekommt da eine ganz reale Gestalt.

Gemeinsam zu optimalen Ergebnissen

Das Ziel ist dabei, dass beide Seiten ihre Stärken ausspielen können: Die Menschen sind kreativ und flexibel, die Maschinen können zum Beispiel schwere Lasten schnell bewegen. Damit aber beide Seiten zusammen optimale Ergebnisse erzielen, müssen sie miteinander kommunizieren. Tastatur und Maus sind dafür unpraktisch, eine Sprachsteuerung im industriellen Umfeld nicht sicher praktikabel. Eine Gestensteuerung dagegen ist intuitiv und findet schon heute viele Anwendungsmöglichkeiten.

Für eine genaue Erkennung der menschlichen Gesten durch die Maschine wird eine dreidimensionale Datenerfassung in Echtzeit benötigt. Am Fraunhofer-Institut für angewandte Optik und Feinmechanik IOF in Jena wird seit Jahren an schnellen Systemen für die Aufnahme und Verarbeitung von 3D-Daten geforscht. Dr. Peter Kühmstedt koordiniert dort das Projekt für die Entwicklung der neuen Einheit zur 3D-Erfassung: „Bei diesem Projekt wollten wir eine kompakte und augensichere Lösung finden. Genau sollte sie aber auch sein.“

Das Know-how steckt in der 3D-Erfassung

Zu einem 3D-Scanner gehören drei Teile: Die Projektion, die Kameras und die Datenverarbeitung, um aus den 2D-Aufnahmen auch räumliche Daten zu erhalten. Während Kameras und Computer meist Standardkomponenten sind, steckt das eigentliche Know-how in der Projektionseinheit.

Die Projektion hat hier zwei Aufgaben zu lösen: Zuerst einmal muss sie genügend Licht auf das Objekt bringen, damit Aufnahmen auch bei Belichtungszeiten deutlich unter einer Tausendstelsekunde möglich sind. In so einem Fall gehen die Anforderungen an den Lichtstrom schnell in den Bereich von mehreren Tausend Lumen.

Außerdem projiziert das System ein schnell variierendes Muster auf die Objektoberfläche. Dieses Muster ist nötig, um korrespondierende Punkte in den Fotos der beiden Kameras zuordnen zu können. So kann der Computer aus einem Satz von 2D-Bildern der beiden Kameras jeweils ein 3D-Bild errechnen.

Um mit einem einfachen Aufbau einen hohen Lichtstrom zu erzeugen, haben die Fraunhofer-Experten einen Trick aus der Theaterbeleuchtung aufgegriffen: Dort steckt man hitzebeständige Glas- oder Metallfilter zwischen Lichtquelle und Optik, um Bilder oder Texte auf die Leinwand zu bringen. Daher kommt auch der Begriff GOBO – von GOes Before Optics. Die Jenaer lassen zwischen Lichtquelle und Optik ein Metallfilter mit verschieden breiten Schlitzen rotieren. Damit erzeugen sie ein aperiodisches Streifenmuster auf dem Objekt, was die gewünschte Zuordnung ermöglicht.

In ihrem ursprünglichen Set-up für Aufgaben in der Qualitätssicherung war der Scheinwerfer dabei 575 W stark und ermöglichte über 1300 Bilder pro Sekunde. In der Version für die Gestenerkennung reicht eine 4,5 -W-LED-Lichtquelle. Sie strahlt im Nahen Infrarot NIR und ist für den Menschen damit komplett unsichtbar. Für die Gestenerkennung werden 360 Muster pro Sekunde projiziert. Mit zwei Hochgeschwindigkeits-NIR-Kameras und einer Farbkamera werden bei jedem Muster Bilder vom beleuchteten Objekt aufgenommen und mit einer speziellen Software zu 36 3D-Datensätzen pro Sekunde umgerechnet. Die Genauigkeit reicht durchaus an die des menschlichen Auges heran: Abhängig vom Abstand sind mit den 1-Megapixel-Kameras Auflösungen im Submillimeterbereich möglich.

(ID:44675755)