Entwicklung und Validierung einer KI-gestützten Suchmaschine (KI-Rechtsberater) für umfassende juristische Datenbestände wie beispielsweise Urteile oder Gesetzestexte. Hierfür ist die direkte Anbindung von Gerichtsdaten mittels „Web Scraper“ an die Daten-Pipeline zu implementieren. Mit der sich stetig ändernden Gerichtslage, ist ein semi-supervised ML Algorithmus zu identifizieren und zu implementieren, zum kontinuierlichen Nachtrainieren von Gerichtsdokumenten. In diesem Zusammenhang ist auch ein neues NoSQL-Datenbanksystem aufzusetzen und in die Daten-Pipeline zu integrieren. Der Fokus liegt auf Graphdatenbanken mit denen die Zusammenhänge auch visuell dargestellt werden können. Die neue Suchmaschine ist funktional und nutzerseitig in Studien zu validieren. Dies findet zunächst in internen Tests statt und die Resultate sind zur Verbesserung der Funktionalität umzusetzen. Anschließend ist ein ML-basierter Algorithmus für einen Chatbot zu implementieren. Abschließend wird der KI-Rechtsberater „Live-geschaltet“ und die Funktionalität wird in einer echten Umgebung auf die Probe gestellt.
Bezug zum Thema Data Science
Das Projekt hat in jeder Hinsicht einen sehr engen Bezug zum Thema Data Science: Von der Datensammlung über die Datenintegration bis hin zur Datenanalyse mit aktuellen ML- und NLP-Verfahren.
Verfügbare Ressourcen
- Der Data-Analytics-Cluster des CfADS steht über die Projektlaufzeit zur Verfügung.
- Es existieren aufbereitete und annotierte Gerichtsdatensätze.
- Auf deutsche Gerichtsurteile nachtrainierte ML-Modelle sind vorhanden.
- Aktive Unterstützung beim Erstellen von wissenschaftlichen Arbeiten, die auf (internationalen) Konferenzen präsentiert werden.
- Die Betreuung durch das Team der Ansprechpartner ist über die Projektlaufzeit gewährleistet.
Projektplan
Erstes Semester: Im ersten Semester liegt der Fokus auf der Einarbeitung in die vorhandene Infrastruktur (Data-Analytics-Cluster des CfADS) und die Schnittstelle zwischen dem Rechtswesen und der künstlichen Intelligenz. In diesem Zusammenhang ist besonders die Einarbeitung in die Themenbereiche ML, NLP und Data Engineering vorgesehen. Außerdem ist es notwendig, sich mit der vorhandenen Datengrundlage vertraut zu machen. Die aktuelle Suchmaschine bezieht die Daten von einem Drittanbieter. Um unabhängig von diesem zu werden, ist außerdem ein „Web Scraper“ zu implementieren, mit dem die Daten direkt vom jeweiligen Gericht geladen werden können. Die Prüfungsleistung ist das Erstellen eines Forschungsexposés auf Englisch und ein dazugehöriges Kolloquium.
Zweites Semester: Die aktuelle Suchmaschine wird einmalig auf dem vorhandenen Datenkorpus trainiert. Natürlich ändern sich die Gesetze stetig, sodass ein kontinuierliches Nachtrainieren notwendig ist, damit Fragen passgenau beantwortet werden können. Hierfür ist ein dementsprechendes Modell (bspw. semi-supervised) zu implementieren und funktional zu validieren. Zudem ist die aktuelle Datenbankstruktur zu überdenken. So bieten sich bspw. Graphdatenbanken an, um stark vernetzte Informationen darzustellen und abzuspeichern. Die Prüfungsleistung ist das Schreiben eines Short-Papers und dem Einreichen auf einer (internationalen) Konferenz. Idealerweise wird das Paper auf der Konferenz präsentiert.
Drittes Semester: Durch die Ergänzungen der Suchmaschine, die in den ersten zwei Semestern implementiert wurden, soll die Suchmaschine in diesem Semester fertiggestellt werden und in die Anwendung gehen. Hierbei liegt der Fokus auf der nutzerseitigen und funktionalen Validierung der Suchmaschine. Hierfür sind Studien durchzuführen, mit denen durch das User-Feedback die Suchmaschine optimiert werden kann. Eine Möglichkeit besteht darin, die Suchmaschine, um einen Feedback-Button zu erweitern, so dass Anwenderfeedback automatisch zum Nachtrainieren des Modells (siehe zweites Semester) verwendet werden kann. Die Prüfungsleistung ist, aufbauend auf dem Short-Paper des zweiten Semesters ein Full-Paper zu schreiben. Idealerweise wird das Paper auf einer Konferenz präsentiert.
Viertes Semester: In der Masterarbeit soll die Suchmaschine „Live gehen“. Dies bedeutet, sich aus der sicheren internen Umgebung heraus zu begeben und die Funktionalität in der realen Welt auf die Probe zu stellen. Dies birgt viele unvorhersehbare Herausforderungen, die für den Praxiseinsatz aber höchst relevant sind. Zudem besteht die Möglichkeit, die Funktionalität der Suchmaschine zu erweitern. Einerseits ist das Erstellen eines Chatbots erstrebenswert. Zudem kann die Datenbasis und die Suchmaschine um verwandte Dokumente (bspw. von Behörden) erweitert werden.
Eignungskriterien
Zwingend:
- Bachelorabschluss in einer einschlägigen Fachrichtung (Informatik, Kognitionswissenschaft, Jura verbunden mit umfassenden Informatikkenntnissen, o.ä.)
- Umfassende Programmierkenntnisse in mindestens einer objektorientierten Programmiersprache
- Fließendes Englisch in Wort und Schrift
Optional:
- Programmierkenntnisse in Python
- Grundkenntnisse in NoSQL-Datenbanken
Erwerbbare Kompetenzen
Der/die Studierende ist nach Abschluss des Projekts in der Lage,
- einen Big-Data-Workflow für juristische Anwendungen aufzusetzen (Datenerfassung, - speicherung und -aufbereitung),
- die für die Verarbeitung von Texten relevanten ML- und NLP-Verfahren zielgerichtet anzuwenden und anwendungsbezogen anzupassen und ggf. weiterzuentwickeln,
- die theoretischen Anforderungen von ML-Verfahren mit den Erfordernissen der Praxis in Einklang zu bringen,
- textbasierte Dialogsysteme anzuwenden,
- die eigenen Forschungsergebnisse vor einem Fachpublikum zu präsentieren
- und wissenschaftliche Texte zu verfassen.