Emmet - Brixx

In diesem Showcase demonstrieren wir die Macht von Künstlichen neuronalen Netzen durch die spezialisierte Erkennung und Klassifikation von Klemmbausteinen. Dieses Projekt dient als Fenster in die vielfältigen Möglichkeiten, die die aktuelle KI-Technologie bietet, und veranschaulicht, wie tiefgehend und präzise Maschinen heute “sehen” können.

Praktische Anwendung

Dies dient als perfektes Beispiel, um die Fähigkeiten von KI in der Erkennung feiner Unterschiede und Details zu demonstrieren. Darüber hinaus könnte eine
erfolgreiche Klassifikation in praktischen Anwendungen, wie der Automatisierung von Sortier- und Lagerprozessen oder der Unterstützung von Montageanleitungen, von großem Nutzen sein.

Systemanforderungen

Das System muss in der Lage sein, Klemmbausteine auf Fotos präzise zu identifizieren, unabhängig von ihrer Positionierung, Ausrichtung oder den Lichtverhältnissen.

Klassifikation der erkannten Bausteine

Nach der Erkennung sollen die Bausteine entsprechend ihrer spezifischen Form und Größe klassifiziert werden. Das System muss Unterschiede zwischen den verschiedenen Arten von Bausteinen differenzieren können.

Farbbestimmung

Neben der Klassifizierung der Form des Klemmbausteins muss das System auch die spezifische Farbe jedes erkannten Bausteins bestimmen können. Dies beinhaltet die Fähigkeit, feine Nuancen und Abstufungen zu erkennen.

Verknüpfung mit Baustein-Sets

Nach der Klassifizierung und Farbbestimmung soll das System in der Lage sein, die identifizierten Steine mit den entsprechenden Sets, zu denen sie gehören, zu verknüpfen. Diese Zuordnungsfähigkeit erleichtert die Bestandsführung und kann Nutzern helfen, fehlende oder spezifische Teile in ihren Sammlungen zu identifizieren.

Datensatz

Die Datengrundlage für unser Projekt stammt direkt aus eigenen, sorgfältig erstellen Daten. Mithilfe automatisierter Verfahren haben wir einen umfangreichen Datensatz von über 650.000 realen Fotos von Klemmbausteinen erstellt, der insgesamt 600 verschiedene Klassen von Klemmbausteinen abdeckt. Die Fotos wurden unter unterschiedlichen Bedingungen und aus verschiedenen Perspektiven aufgenommen, um eine möglichst breite Datenbasis zu gewährleisten. Zusätzlich zu diesen realen Fotos haben wir eine Pipeline entwickelt, die es uns ermöglicht, synthetische Datensätze zu generieren.

Training

Alle Trainingsschritte und Datenverarbeitungen werden intern in unserem Hause durchgeführt. Dies garantiert, dass sämtliche Daten in unserer Kontrolle bleiben und zu keinem Zeitpunkt an Dritte weitergeleitet werden. Für das Training unserer Modelle setzen wir auf unseren hauseigenen GPU-Cluster.

Accuracy

96,06%

Die Genauigkeit gibt das Verhältnis der korrekten Vorhersagen zur Gesamtzahl der Vorhersagen an.

Loss

0,15

Der Verlustwert, auch bekannt als Kostenfunktion, gibt Aufschluss darüber, wie weit die Vorhersagen des Modells von den tatsächlichen Ergebnissen entfernt sind.

Recall

97,61%

Recall misst, wie viele der tatsächlich positiven Elemente vom Modell auch als solche erkannt wurden.

Precision

95,56%

Die Precision gibt das Verhältnis der korrekt positiv vorhergesagten Elemente zur Gesamtzahl der als positiv vorhergesagten Elemente an.

F1-Score

96,07%

Dies ist das harmonische Mittel von Precision und Recall und gibt einen umfassenden Wert über die Qualität des Modells.

Accuracy

96,06%

Die Genauigkeit gibt das Verhältnis der korrekten Vorhersagen zur Gesamtzahl der Vorhersagen an.

Loss

0,15

Der Verlustwert, auch bekannt als Kostenfunktion, gibt Aufschluss darüber, wie weit die Vorhersagen des Modells von den tatsächlichen Ergebnissen entfernt sind.

Recall

97,61%

Recall misst, wie viele der tatsächlich positiven Elemente vom Modell auch als solche erkannt wurden.

Precision

95,56%

Die Precision gibt das Verhältnis der korrekt positiv vorhergesagten Elemente zur Gesamtzahl der als positiv vorhergesagten Elemente an.

F1-Score

96,07%

Dies ist das harmonische Mittel von Precision und Recall und gibt einen umfassenden Wert über die Qualität des Modells.

Optimierung

Durch gezielte Anpassungen und Optimierungen in unserer Systemarchitektur sowie den verwendeten Algorithmen konnten wir beachtliche Verbesserungen in der Verarbeitungsgeschwindigkeit erzielen. Ursprünglich benötigte unsere serverseitige Verarbeitung eine gesamte Dauer von 30.000 Millisekunden (30 Sekunden) pro Bild. Mit den durchgeführten Verbesserungen konnten wir diese Zeit drastisch auf nur 150 Millisekunden reduzieren.

Für unsere Tests haben wir Bilder verwendet, die jeweils 50 Klemmbausteine enthalten.

Integration von Bauanleitungen

Im Laufe unseres Projektes haben wir eine bedeutende Weiterentwicklung vorgenommen: die Integration der Verarbeitung von Bauanleitungen. Dies ermöglicht es uns nicht nur, wertvolle zusätzliche Informationen zu extrahieren, sondern auch, jeden erkannten Stein einer spezifischen Seite und ihrer Position auf dieser Seite in der Bauanleitung zuzuweisen.

Zukünftige Arbeit

Eines unserer primären Ziele für die Weiterentwicklung ist die Optimierung der Verarbeitungsgeschwindigkeit unseres Klassifizierungsnetzwerks. Im aktuellen Zustand benötigt unser System durchschnittlich 47 ms, um ein Bild zu verarbeiten, was einer Rate von 21 Bildern pro Sekunde entspricht. Um eine nahtlose Echtzeit-Interaktion zu ermöglichen, streben wir eine Leistungssteigerung an, um eine Verarbeitungsrate von 60 Bildern pro Sekunde zu erreichen. Ein
solches Maß an Geschwindigkeit würde nicht nur die Benutzererfahrung erheblich verbessern, sondern auch die Tür zu neuen Anwendungsbereichen öffnen, wie:

Unsere ambitionierten Pläne setzen vor allem auf unsere tiefgreifende Expertise im Bereich KI. Wir beabsichtigen, dieses Know-How durch die Veröffentlichung einer App zu vermarkten, die für die gängigen mobilen Betriebssysteme ebenfalls in unserem eigenen Hause entwickelt wird. Dadurch sichern wir nicht nur die Qualität der Anwendung, sondern auch einen hohen Standard beim Datenschutz.

EMMET SOFTWARE LABS

Emmet Software Labs GmbH & Co. KG
Hertzstr. 6
32052 Herford

Telefon: +49 5221-763 999-10  

Email: info@emmet-software-labs.com