Verwendung von Hochleistungsrechnen (High-Performance Computing) zur Ausführung großer Vision-Language-Modelle (VLM) für die allgemeine Abfallerkennung

Verwendung von Hochleistungsrechnen (High-Performance Computing) zur Ausführung großer Vision-Language-Modelle (VLM) für die allgemeine Abfallerkennung

Problematik

Allgemeine Objekterkennung beschreibt die Fähigkeit, Objekte zu erkennen, die nicht in den Trainingsdaten enthalten sind. Ein typisches Beispiel ist ein assistierender Abfallsammelroboter, der auch bei unvollständigen oder deformierten Abfällen eine stabile Erkennungsrate aufweisen sollte. Es ist jedoch nahezu unmöglich, Trainingsdaten für alle derartigen Sonderfälle zu erstellen. Zudem basiert die Entscheidung, ob ein Objekt als Müll betrachtet und entsorgt werden sollte, in der Regel auf menschlichem Allgemeinwissen. Die implizite menschliche Logik lässt sich kaum durch feste Regeln vollständig auf alle Arten von Abfällen abbilden.

Lösung

Der Einsatz von VLMs anstelle herkömmlicher Vision Models (VM) ist bei solchen Aufgaben sinnvoll. Moderne große Sprachmodelle Language Models (LM) beherrschen nicht nur die Übersetzung zwischen menschlicher und maschineller Sprache, sondern haben durch umfangreiche Textdaten auch grundlegende menschliche Logik erlernt. Im Vergleich zur Verwendung von VMs in Kombination mit komplexen Regeln zur Mülldefinition, bietet der direkte Einsatz von VLMs eine effizientere und robustere Lösung. Unsere Experimente zeigen, dass VLMs zwar nicht alle Objekte perfekt in Abfall und Nicht-Abfall trennen, jedoch menschliche Logik zur robusteren Erkennung mit einbeziehen. Eine Flasche auf einem Tisch wird z.B. nicht als Abfall erkannt, während die gleiche Flasche auf dem Boden als Abfall erkannt wird.

Vorteile für KMU

Das VLM kann z.B. als Vorstufe für die allgemeine Abfallerkennung genutzt werden, ergänzt durch manuelle Regeln zur Abfallselektion. Zudem benötigt das VLM zunächst keine eigens gesammelten Trainingsdaten. VLMs könnten somit auch besonders für KMUs interessant sein, da sie out of the box zur Problemlösung herangezogen werden können. Oft stehen ohnehin nur kleine Trainingsdatensätze zur Verfügung und es erfolgt schließlich eine Überanpassung des trainierten Modells an den Datensatz. Mit Hilfe von Hochleistungsrechnern können wir an der TU-Ilmenau effizient mit VLMs arbeiten.

Ihre Ansprechperson zur Testumgebung Verwendung von Hochleistungsrechnen (High-Performance Computing) zur Ausführung großer Vision-Language-Modelle (VLM) für die allgemeine Abfallerkennung:

Albrecht Heß Dipl.-Ing,
Fachgebiet Qualitätssicherung und Industrielle Bildverarbeitung
Telefon: +49 3677 69-3925
Mail: albrecht.hess@tu-ilmenau.de