»NeurOSmart« – Sichere Smartsensoren für die Mensch-Roboter-Kollaboration im industriellen Umfeld

Segmentationsnetzwerke auf neuromorphen Edge-Geräten

»NeurOSmart« ist ein vom Fraunhofer-Vorstand gefördertes Leitprojekt, in welchem ein Konsortium von 5 Fraunhofer-Instituten ein ambitioniertes Ziel verfolgen: Die Entwicklung eines neuartigem Sensorsystems, bei dem ein LiDAR-gestützter Tiefensensor die Kollaboration eines Menschen und Industrieroboters überwacht. Dabei findet die Verarbeitung direkt am Sensor auf einem FeFET-gestützten neuromorphen Beschleuniger statt, welche bei einer drohenden Kollision von Mensch und Roboter ein Warnsignal an letzteren senden kann. Der Fokus des Fraunhofer IAIS liegt hierbei auf der Entwicklung eines sehr kompakten Segmentationsnetzwerks, was unter den begrenzten Rechenressourcen jeden Pixel des Tiefenbildes klassifiziert (Mensch, Roboter, Hintergrund). Diese Segmentation wird dann genutzt, um einen Minimalabstand zwischen Mensch und Roboter zu garantieren.

Wie auch das verwandte Projekt SEC-Learn beschäftigt sich das Projekt NeurOSmart mit sensornaher Datenverarbeitung, welche durch die ersparte Datenübertragung und die Entwicklung dedizierter neuromorpher Beschleuniger eine große Energieeinsparung und Datenschutz versprechen. Zusätzlich wird in dem Projekt auch ein neuartiger LiDAR-Tiefensensor entwickelt, der durch Mikrospiegel eine große Fläche abdecken kann und anders als viele gängige Tiefensensoren nicht nur einzelne Punkte produziert, sondern zweidimensionale Tiefenbilder.

Der betrachtete Anwendungsfall ist die Kollaboration zwischen Mensch und Roboter im industriellen Kontext. Ziel des Projekts ist die Entwicklung eines kompakten Gesamtsystems, welches die schutzzaunlose Zusammenarbeit von Menschen und Schwerlast-Industrierobotern ermöglicht. Dazu wird das Sensorsystem mit integrierter Datenverarbeitung über dem Roboterarm aufgehangen und sendet bei Gefahr von Kollisionen ein Stoppsignal an den Roboter. Eine sonst häufige komplizierte und energieintensive Datenübertragung zwischen Sensor und einem Server für KI-getriebener Datenverarbeitung ist nicht nötig.


Was sind Tiefenbilder und warum sollte man sie nutzen?

Bei Tiefenbildern handelt es sich um zweidimensionale Bilder mit nur einem Kanal (statt der üblichen drei für z. B. RGB), bei der jeder Pixel seine Distanz zum Sensor enthält. Dadurch stechen Vordergrundobjekte (hier Mensch & Roboter) besonders vom Hintergrund hervor, da ihre Pixel einen klaren Unterschied zu den benachbarten Pixeln haben. Als Extrembeispiel stelle man sich einen grauen Roboter vor grauen Hintergrund vor – während in einem Farbbild dieser evtl. schwer zu erkennen wäre, ist es im Tiefenbild kein Problem.

Darüber hinaus erlaubt es auch, ein Bild von sehr viel niedriger Auflösung zu verarbeiten und trotzdem gut Objekte zu erkennen. Dies wiederum senkt weiter den Energieverbrauch in der Weiterverarbeitung der Bilder.

Zuletzt sollte man auch den Privatsphärenschutz nennen: Reguläre (Farb-)Bilder erlauben u. U. die Identifikation von Personen und kann damit im betrieblichen Umfeld auf Ablehnung stoßen. Tiefenbilder hingegen erlauben diese Identifikation i.d.R. nicht und können damit auf die wesentliche Funktion – die Erkennung von Menschen als solche – reduziert werden.


Hardware-basierte KI-Entwicklung am IAIS

Im engen Austausch mit den Entwicklern des neuromorphem Chips am Fraunhofer IPMS wird am Fraunhofer IAIS passend für den Anwendungsfall ein kleines, effizientes neuronales Netz (NN) zur Segmentierung der Daten erschaffen. Hierbei wird großer Wert daraufgelegt, die Anzahl der Gewichte sowie den Memory Footprint der Aktivierungen im Netzwerk zu verringern. Dies ermöglicht eine um Größenordnungen effizientere Verarbeitung als herkömmliche Ansätze von nicht angepassten NNs auf generischen Beschleunigern.

Ausschnitt aus den erzeugten synthetischen Daten. Die Segmentationsannotationen sind hier auf den Tiefendaten überlagert (Roboter in Rot, Menschen in Grün). Die Roboteranimation ist randomisiert im erlaubten Bewegungsraum, die menschlichen Animationen basieren auf realen Motion-Capture-Daten. © Fraunhofer IAIS

Daten synthetisch erzeugen hilft bei Mangel an Trainingsdaten

Eine große Herausforderung wie sehr oft im Maschinellen Lernen ist der Mangel an Daten. Da der Sensor erst innerhalb des Projekts entwickelt wird, werden erst spät reale Aufnahmen zum Trainieren der KI möglich sein. Gelöst wird dieses Problem durch die clevere Erzeugung synthetischer Daten. Die gesamte reale Roboterzelle ist virtuell dargestellt und verschiedene Szenarien können simuliert werden. Tiefendaten sind im Renderprozess sehr günstig und zur Approximation des echten Sensors werden Rauschmuster nachgeahmt und damit die perfekten synthetischen Daten auf ein real zu erwartendes Niveau reduziert. Der Ansatz der synthetischen Datenerzeugung erlaubt nicht nur die Entwicklung der KI parallel zum Sensor, sondern ermöglicht auch die einfache Verallgemeinerung der KI auf andere, ähnliche Anwendungsfälle und reduziert den sehr großen Aufwand der Datenaufnahme und -annotation – diese geschieht sonst oft mit einem beträchtlichen manuellen Aufwand.
 

Wer kann davon profitieren?

In sehr vielen Fertigungsprozessen werden (Schwerlast-)Roboter eingesetzt, die durch ihre potenzielle Gefahr für den Menschen sicher abgeschottet werden müssen. Dies reduziert nicht nur den zur Verfügung stehenden Raum, sondern verlangsamt auch Fertigungsprozesse, bei denen Menschen mit einem Roboter interagieren. Ein sicheres KI-System zur Erkennung von Mensch und Roboter steigert nicht nur die Effizienz etablierter Prozesse, sondern ermöglicht auch bisher nie dagewesene Formen der Zusammenarbeit.