Für beide Arbeitsbereiche werden zunächst die vorhandenen strukturierten Daten gesichtet, vorverarbeitet und bereinigt. Es wird eine Datenbank aufgebaut und einfache statistische Verfahren zur Charakterisierung der Daten angewendet.
Anschließend wird ein Empfehlungssystem auf der Basis von Interventions- und Behandlungsverläufen entwickelt. Die genaue technische Umsetzung ist Teil der Ausarbeitung. Denkbar ist hier die Anwendung von AutoML-Methoden auf einen Teil des Datensatzes und die Erweiterung der Gewinnerarchitektur.
Alternativ wird der Freitextanteil mit textverarbeitenden KIs, wie Open Source Large Language Models, ausgewertet. Eine Maßnahme zur Verbesserung der Performance soll evaluiert werden, wie z.B. Transfer Learning mit existierenden medizinischen Textdatensätzen.
Bezug zum Thema Data Science
Im vorgestellten Projekt geht es sowohl um die Datenvorverarbeitung und -aufbereitung, die Einbindung in Datenbanken und die Themen Transfer Learning, Natural Language Processing oder AutoML. Diese Bereiche sind alle direkt mit dem Thema Data Science verknüpft.
Verfügbare Ressourcen
Die benötigten Daten werden von der Entyre GmbH nach Unterzeichnung einer Vertraulichkeits- und Datenschutzerklärung in pseudonymisierter Form zur Verfügung gestellt. Als Rechenressourcen wird die TransCareTech Erweiterung des YourAI Clusters genutzt. Diese stellt 4 Nvidia A100 für das Training von KI-Methoden zur Verfügung.
Projektplan
Erstes Semester: Ausarbeitung eines Forschungsexposees, Einarbeitung in die Thematik sowie Sichtung des Datensatzes
Zweites Semester: Recherchen zum Thema KI-Empfehlungssysteme/KI-Sprachverarbeitung, Analyse des Datensatzes mittels statistischer Verfahren. Erste Veröffentlichung zum Stand er Technik.
Drittes Semester: Implementierung der KI-Verfahren und Auswertung. Zweite Veröffentlichung zur ersten Ergebnisse.
Viertes Semester: Optimierung der Verfahren, Weiterentwicklung zur Anwendung, Finale Auswertung. Masterarbeit und Kolloquium.
Eignungskriterien
Zwingend:
- Programmierkenntnisse in Python
- Begeisterung für die Motive und das Thema des Projekts
Optional:
- Erfahrung mit der Anwendung von ML
- Erfahrung mit Datenbanken
Erwerbbare Kompetenzen
- Umgang mit großen Datensätzen
- Vorverarbeitung von Daten und Feature Engineering
- Einsatz von KI-Verfahren in sozialen/gesundheitsbezogenen Berufen