Für die Umsetzung der beschriebenen Funktionalität bedarf es in einem ersten Schritt geeigneter Bild-repräsentationen, damit diese Merkmale gute Erkennungsleistungen ermöglichen. Zu diesem Zweck muss identifiziert werden, welche aktuelle Entwicklungen aus dem Bereich des selbstüberwachten ma-schinellen Lernen dafür effizient eingesetzt werden können, z.B. [4-7]. Neben der Güte der gelernten Repräsentationen bzgl. üblicher Metriken auf einer anschließenden (im ersten Schritt noch nicht ite-rativen) Klassifikationsstufe sollen auch Kriterien zum Ressourcenbedarf (Speicher, Rechenleistung) in die Betrachtung mit einbezogen werden.
Für die quantitative Evaluation der identifizierten Ansätze soll ein Versuchsaufbau inklusive Experi-mentierplan entwickelt werden (Datensatz, Verfahren und weitere Versuchsbedingungen, Evaluati-onskriterien). Eine Baseline-Ansatz für die Evaluation soll formuliert werden, welcher bei der weiteren Versuchsdurchführung als Bezugspunkt dient. Für die Versuche sollen einerseits Bilddaten ohne Anno-tationen für das selbst-überwachte Training genutzt werden, andererseits annotierte Bilder für die Evaluation der Erkennungsgüte auf der überwachten Zielaufgabe (Gargutklassifikation).
In einem zweiten Schritt gilt es, die Bildrepräsentationen um effiziente Algorithmen und Betriebskon-zepte für das iterative, kundenindividuelle Training und Vorhalten von entsprechenden Erkennungs-modellen zu erweitern. Diese Klassifikationsstufe muss verschiedenen Kriterien genügen. Insbeson-dere ist ein robustes Antrainieren kundenspezifischer Klassen aus wenigen Beispielen und die Mi-schung von vordefinierten „Standardklassen“ mit den kundenspezifischen Klassen bei einer gleichzeitig hohen Erkennungsgenauigkeit zu erreichen. Im einfachsten Fall kommen Varianten von k-Nächste-Nachbarn-Klassifikatoren zum Einsatz, welche in diesem Projekt um kundenspezifische Filter und zu-sätzliche Heuristiken zur Rückmeldung der Akzeptanz einer neuen Klasse erweitert werden.
Für die quantitative Evaluation des iterativen Trainings der Klassifikationsstufe sollen geeignete Szena-rien entwickelt werden, welche das iterative Lernverhalten im Betrieb möglichst gut abbilden. Hierzu muss ein entsprechender Versuchsaufbau (insbesondere ein Datensatz inklusive Samplesequenzen für kundenindividuelle Klassen) erstellt und geeignete Evaluationskriterien definiert werden. Die Evalua-tion kann dann auf Basis der festen, im vorigen Schritt erstellten Bildrepräsentationsstufe, erfolgen.
Mit den gewonnenen Erkenntnissen sollen mögliche Betriebskonzepte beschrieben und bzgl. Robust-heit, Komplexität etc. bewertet werden. Ein geeignetes Betriebskonzept muss bspw. auch die Aktuali-sierung der vorgeschalteten Bildrepräsentationsstufe berücksichtigen und eine Anpassung der nach-gelagerten Erkennungsstufe einbeziehen. Ein zusätzliches Kriterium für ein Betriebskonzept stellt das
Schützen der Privatsphäre der NutzerInnen durch eine möglichst sparsame Datenhaltung dar (privacy by design). Das bevorzugte Betriebskonzept soll prototypisch umgesetzt und demonstriert werden.
Die Aufgabenstellung bezieht sich primär auf Klassifikationsaufgaben. Die Untersuchung von Bildre-präsentationen, die auch zur Objekterkennung oder Segmentierung geeignet sind, stellt eine weitere Ausbaustufe dar [7], um auch komplexere Anwendungen abbilden zu können. Ein Beispiel ist das Zäh-len von Gargütern wie Muffins, Pizzen o.ä., um Garparameter optimal einstellen zu können. Hierzu sollen geeignete Modellarchitekturen, welche nicht nur zur Klassifikation (globale Repräsentation), sondern auch zur Detektion (lokale Repräsentation) geeignet sind, identifiziert und evaluiert werden.
Bezug zum Thema Data Science
Für die Umsetzung des Projekts kommen etablierte und neuartige Verfahren und Techniken aus dem Bereich der Datenwissenschaften zum Einsatz. Hierzu zählen insbesondere das selbst-überwachte Ler-nen von Bildrepräsentationen mit tiefen, neuronalen Netzen (Deep Learning, Convolutional Neural Networks) und distanzbasierte Klassifikations- und Clusteringverfahren (k-Nearest Neighbors, k-Means, Growing Neural Gas). Zusätzlich werden etablierte Methoden und Metriken zur Evaluation von Klassifikatoren eingesetzt (Generalisierungstests, Klassifikationsraten, Maße zur Charakterisierung von Repräsentationen wie z.B. Sparseness) und Verfahren zur Visualisierung hochdimensionaler Daten wie z.B. Principal Component Analysis, t-Stochastic Neighbor Embedding, Linear Discriminant Analysis.
Verfügbare Ressourcen
Für die Umsetzung des Projekts kommen öffentlich verfügbare sowie interne Datensätze zum Einsatz, welche auf mit GPUs ausgestatteten Rechenressourcen am Center for Applied Data Science (CfADS) und bei Miele verarbeitet werden. Die Projektumsetzung wird seitens der Firma Miele durch Experten aus den Bereichen AI & Data sowie aus der Anwendungsdomäne unterstützt.
Projektplan
Erstes Semester: Einarbeitung in den Anwendungskontext, Stand der Technik und Konkretisierung des Projekts. Dies beinhaltet die fachliche Einarbeitung in die Anwendungsdomäne sowie in die technische Infrastruktur (CfADS-Rechencluster, Miele-Cloud-Infrastruktur). Recherche und Analyse von vergleich-baren Ansätzen, Verfahren und Vorarbeiten. Konzipieren eines Experimentierplans inklusive der Formulierung einer Baseline. Die Erstellung eines Forschungsexposés ist Prüfungsleistung.
Zweites Semester: Aufsetzen einer Umgebung (Daten, Verfahren, Auswertung) zur Evaluation relevanter Ansätze für das Lernen von Bildrepräsentationen. Durchführung der Modellbildung für Bildreprä-sentationen und Auswertung der Ergebnisse. Konzeption von Szenarien zur Evaluation der Klassifikationsstufe mit iterativen Lernverfahren. Vorbereitung einer entsprechenden Datenbasis. Erstellung ei-nes Papers, das einen Überblick über das jeweilige Forschungsgebiet gibt, ist Prüfungsleistung.
Drittes Semester: Aufsetzen einer Umgebung zur Evaluation des iterativen kundenspezifischen Trainings der Klassifikationsstufe. Durchführung der iterativen Modellbildung in der Klassifikationsstufe und Auswertung der Ergebnisse. Formulierung verschiedener Betriebskonzepte und deren Bewertung. Prototypische Umsetzung eines der Betriebskonzepte. Erstellung eines Papers mit ersten quantitativen Ergebnissen ist Prüfungsleistung.
Viertes Semester: Masterarbeit und Kolloquium
Eignungskriterien
• Softwareentwicklung mit Cloud-Ressourcen und GPU-Clustern
• Anwendung und Weiterentwicklung von maschinellen Lernverfahren, insbesondere Deep Learning mit Convolutional Neural Networks für die Bilderkennung
• Wissenschaftliches Arbeiten insbesondere zur Entwicklung von Hypothesen, Experimentierplänen und Evaluationsszenarien für maschinelle Lernverfahren
• Konzipieren von Prozessen und Architekturen für datengetriebene IoT-Anwendungen
Referenzen
[1] Miele & Cie. KG, Kochen auf dem nächsten Level mit künstlicher Intelligenz, 2020, https://www.miele.de/de/m/kochen-auf-dem-naechsten-level-mit-kuenstlicher-intelligenz-5368.htm
[2] Bellet, Habrard, Sebban: A Survey on Metric Learning for Feature Vectors and Structured Data. CoRR, 2013
[3] Jaiswal, Babu, Zadeh, Banerjee, Makedon: A Survey on Contrastive Self-Supervised Learning. Technologies, 2021
[4] Chen, Kornblith, Norouzi, Hinton: A simple framework for contrastive learning of visual repre-sentations. ICML, 2020
[5] Caron, Misra, Mairal, Goyal, Bojanowski, Joulin: Unsupervised Learning of Visual Features by Contrasting Cluster Assignments. NeurIPS, 2020
[6] Bardes, Ponce, LeCun: VICReg: Variance-Invariance-Covariance Regularization for Self-Super-vised Learning. NeurIPS, 2021
[7] Bardes, Ponce, LeCun: VICRegL: Self-Supervised Learning of Local Visual Features. NeurIPS, 2022