Personalisierte Bilderkennung für vernetzte Haushaltsgeräte mittels selbstüberwachten Lernens

Diagramm zur Erklärung des Vorganges einer personalisierten Bilderkennung



Projektübersicht

Anzahl Studierende 1
Art Projekt mit externen Partnern
Projektverantwortung Prof. Dr.-Ing. Wolfram Schenck, Dr. Felix Reinhart (Miele & Cie. KG)
Projektkontext Projekt in Zusammenarbeit mit der Firma Miele & Cie. KG sowie dem Center for Applied Data Science Gütersloh
Projektdurchführung Peter Wenderberg

 

Kurzbeschreibung

Die Mustererkennung in Bildern findet in den letzten Jahren immer breitere Anwendungsfelder, bei-spielsweise auch in Kameraöfen von Miele zur Erkennung von Gargütern [1]. Die Garguterkennung wird dabei für die Generierung eines Garprogrammvorschlags genutzt. Die unterstützen Garpro-gramme werden aktuell zentral definiert und bereitgestellt.
Ziel dieses Projekts ist eine Erweiterung dieses Ansatzes, welcher es NutzerInnen ermöglicht, eigene, speziell auf ihre Gerichte und Geschmacksvorlieben abgestimmte Garprogramme zu hinterlegen (s. Schritt 1 in Abbildung). Diese nutzerspezifischen Garprogramme sollen auch über eine automatisierte Garguterkennung vorgeschlagen werden können (s. Schritt 2 in Abbildung).
1. Teach-in ofnewpersonal fooditem:2. PersonalizedClassification:„Grandma‘sspecialdish“„Grandma‘sspecialdish“…PersonalizedClassificationStage(scarcedata)RepresentationLearning from Big Data(self-supervised)
Eine geeignete Vorgehensweise entsprechend dem Stand der Technik für solche Aufgabenstellungen ist die Separierung einer kompakten Bildrepräsentation von einer nachgelagerten Klassifikationsstufe [2-6]. Diese Trennung in zwei Stufen, eine Stufe zur Berechnung der kompakten Eingaberepräsentation und eine Stufe zur kundenspezifischen Klassifikation, ist in der Abbildung rechts schematisch darge-stellt. Das Training eines domänenspezifischen Modells, hier für Gargüter, zur Extraktion solcher kom-pakten Bildrepräsentationen kann einmalig vor dem Betrieb und unabhängig von der Klassifikations-stufe erfolgen. Es findet also kein (Nach)Trainieren dieser Stufe im laufenden Betrieb statt. Die Klassi-fikationsstufe muss hingegen im Betrieb entsprechend der Interaktion durch die NutzerInnen automa-tisch nachtrainiert werden. Die Klassifikationsstufe kann als eine Menge von nutzerspezifischen Klassi-fikatoren aufgefasst werden, welche iterativ in einem voll-automatisierten Modellierungsprozess be-trieben werden. Dabei ist die Absicherung dieses automatisierten Modellbildungsprozesses, z.B. durch die Wahl einer robusten Algorithmik und die Entwicklung automatisierter Testprozeduren zur Modell-evaluation, von entscheidender Bedeutung für ein konsistentes Systemverhalten und eine maximal begeisternde Kundenerfahrung.

Aufgabenstellung

Für die Umsetzung der beschriebenen Funktionalität bedarf es in einem ersten Schritt geeigneter Bild-repräsentationen, damit diese Merkmale gute Erkennungsleistungen ermöglichen. Zu diesem Zweck muss identifiziert werden, welche aktuelle Entwicklungen aus dem Bereich des selbstüberwachten ma-schinellen Lernen dafür effizient eingesetzt werden können, z.B. [4-7]. Neben der Güte der gelernten Repräsentationen bzgl. üblicher Metriken auf einer anschließenden (im ersten Schritt noch nicht ite-rativen) Klassifikationsstufe sollen auch Kriterien zum Ressourcenbedarf (Speicher, Rechenleistung) in die Betrachtung mit einbezogen werden.
Für die quantitative Evaluation der identifizierten Ansätze soll ein Versuchsaufbau inklusive Experi-mentierplan entwickelt werden (Datensatz, Verfahren und weitere Versuchsbedingungen, Evaluati-onskriterien). Eine Baseline-Ansatz für die Evaluation soll formuliert werden, welcher bei der weiteren Versuchsdurchführung als Bezugspunkt dient. Für die Versuche sollen einerseits Bilddaten ohne Anno-tationen für das selbst-überwachte Training genutzt werden, andererseits annotierte Bilder für die Evaluation der Erkennungsgüte auf der überwachten Zielaufgabe (Gargutklassifikation).
In einem zweiten Schritt gilt es, die Bildrepräsentationen um effiziente Algorithmen und Betriebskon-zepte für das iterative, kundenindividuelle Training und Vorhalten von entsprechenden Erkennungs-modellen zu erweitern. Diese Klassifikationsstufe muss verschiedenen Kriterien genügen. Insbeson-dere ist ein robustes Antrainieren kundenspezifischer Klassen aus wenigen Beispielen und die Mi-schung von vordefinierten „Standardklassen“ mit den kundenspezifischen Klassen bei einer gleichzeitig hohen Erkennungsgenauigkeit zu erreichen. Im einfachsten Fall kommen Varianten von k-Nächste-Nachbarn-Klassifikatoren zum Einsatz, welche in diesem Projekt um kundenspezifische Filter und zu-sätzliche Heuristiken zur Rückmeldung der Akzeptanz einer neuen Klasse erweitert werden.
Für die quantitative Evaluation des iterativen Trainings der Klassifikationsstufe sollen geeignete Szena-rien entwickelt werden, welche das iterative Lernverhalten im Betrieb möglichst gut abbilden. Hierzu muss ein entsprechender Versuchsaufbau (insbesondere ein Datensatz inklusive Samplesequenzen für kundenindividuelle Klassen) erstellt und geeignete Evaluationskriterien definiert werden. Die Evalua-tion kann dann auf Basis der festen, im vorigen Schritt erstellten Bildrepräsentationsstufe, erfolgen.
Mit den gewonnenen Erkenntnissen sollen mögliche Betriebskonzepte beschrieben und bzgl. Robust-heit, Komplexität etc. bewertet werden. Ein geeignetes Betriebskonzept muss bspw. auch die Aktuali-sierung der vorgeschalteten Bildrepräsentationsstufe berücksichtigen und eine Anpassung der nach-gelagerten Erkennungsstufe einbeziehen. Ein zusätzliches Kriterium für ein Betriebskonzept stellt das
Schützen der Privatsphäre der NutzerInnen durch eine möglichst sparsame Datenhaltung dar (privacy by design). Das bevorzugte Betriebskonzept soll prototypisch umgesetzt und demonstriert werden.
Die Aufgabenstellung bezieht sich primär auf Klassifikationsaufgaben. Die Untersuchung von Bildre-präsentationen, die auch zur Objekterkennung oder Segmentierung geeignet sind, stellt eine weitere Ausbaustufe dar [7], um auch komplexere Anwendungen abbilden zu können. Ein Beispiel ist das Zäh-len von Gargütern wie Muffins, Pizzen o.ä., um Garparameter optimal einstellen zu können. Hierzu sollen geeignete Modellarchitekturen, welche nicht nur zur Klassifikation (globale Repräsentation), sondern auch zur Detektion (lokale Repräsentation) geeignet sind, identifiziert und evaluiert werden.

 

Bezug zum Thema Data Science 

Für die Umsetzung des Projekts kommen etablierte und neuartige Verfahren und Techniken aus dem Bereich der Datenwissenschaften zum Einsatz. Hierzu zählen insbesondere das selbst-überwachte Ler-nen von Bildrepräsentationen mit tiefen, neuronalen Netzen (Deep Learning, Convolutional Neural Networks) und distanzbasierte Klassifikations- und Clusteringverfahren (k-Nearest Neighbors, k-Means, Growing Neural Gas). Zusätzlich werden etablierte Methoden und Metriken zur Evaluation von Klassifikatoren eingesetzt (Generalisierungstests, Klassifikationsraten, Maße zur Charakterisierung von Repräsentationen wie z.B. Sparseness) und Verfahren zur Visualisierung hochdimensionaler Daten wie z.B. Principal Component Analysis, t-Stochastic Neighbor Embedding, Linear Discriminant Analysis.

 

Verfügbare Ressourcen

Für die Umsetzung des Projekts kommen öffentlich verfügbare sowie interne Datensätze zum Einsatz, welche auf mit GPUs ausgestatteten Rechenressourcen am Center for Applied Data Science (CfADS) und bei Miele verarbeitet werden. Die Projektumsetzung wird seitens der Firma Miele durch Experten aus den Bereichen AI & Data sowie aus der Anwendungsdomäne unterstützt.

 

Projektplan

Erstes Semester: Einarbeitung in den Anwendungskontext, Stand der Technik und Konkretisierung des Projekts. Dies beinhaltet die fachliche Einarbeitung in die Anwendungsdomäne sowie in die technische Infrastruktur (CfADS-Rechencluster, Miele-Cloud-Infrastruktur). Recherche und Analyse von vergleich-baren Ansätzen, Verfahren und Vorarbeiten. Konzipieren eines Experimentierplans inklusive der Formulierung einer Baseline. Die Erstellung eines Forschungsexposés ist Prüfungsleistung.
Zweites Semester: Aufsetzen einer Umgebung (Daten, Verfahren, Auswertung) zur Evaluation relevanter Ansätze für das Lernen von Bildrepräsentationen. Durchführung der Modellbildung für Bildreprä-sentationen und Auswertung der Ergebnisse. Konzeption von Szenarien zur Evaluation der Klassifikationsstufe mit iterativen Lernverfahren. Vorbereitung einer entsprechenden Datenbasis. Erstellung ei-nes Papers, das einen Überblick über das jeweilige Forschungsgebiet gibt, ist Prüfungsleistung.
Drittes Semester: Aufsetzen einer Umgebung zur Evaluation des iterativen kundenspezifischen Trainings der Klassifikationsstufe. Durchführung der iterativen Modellbildung in der Klassifikationsstufe und Auswertung der Ergebnisse. Formulierung verschiedener Betriebskonzepte und deren Bewertung. Prototypische Umsetzung eines der Betriebskonzepte. Erstellung eines Papers mit ersten quantitativen Ergebnissen ist Prüfungsleistung.
Viertes Semester: Masterarbeit und Kolloquium

 

Eignungskriterien

• Softwareentwicklung mit Cloud-Ressourcen und GPU-Clustern
• Anwendung und Weiterentwicklung von maschinellen Lernverfahren, insbesondere Deep Learning mit Convolutional Neural Networks für die Bilderkennung
• Wissenschaftliches Arbeiten insbesondere zur Entwicklung von Hypothesen, Experimentierplänen und Evaluationsszenarien für maschinelle Lernverfahren
• Konzipieren von Prozessen und Architekturen für datengetriebene IoT-Anwendungen



Referenzen

[1] Miele & Cie. KG, Kochen auf dem nächsten Level mit künstlicher Intelligenz, 2020, https://www.miele.de/de/m/kochen-auf-dem-naechsten-level-mit-kuenstlicher-intelligenz-5368.htm
[2] Bellet, Habrard, Sebban: A Survey on Metric Learning for Feature Vectors and Structured Data. CoRR, 2013
[3] Jaiswal, Babu, Zadeh, Banerjee, Makedon: A Survey on Contrastive Self-Supervised Learning. Technologies, 2021
[4] Chen, Kornblith, Norouzi, Hinton: A simple framework for contrastive learning of visual repre-sentations. ICML, 2020
[5] Caron, Misra, Mairal, Goyal, Bojanowski, Joulin: Unsupervised Learning of Visual Features by Contrasting Cluster Assignments. NeurIPS, 2020
[6] Bardes, Ponce, LeCun: VICReg: Variance-Invariance-Covariance Regularization for Self-Super-vised Learning. NeurIPS, 2021
[7] Bardes, Ponce, LeCun: VICRegL: Self-Supervised Learning of Local Visual Features. NeurIPS, 2022