Stud.IP Uni Oldenburg
University of Oldenburg
04.12.2023 13:29:35
ThesisTopics

Personal details

Title Einsatzpotenziale von Large Language Modells entlang des Record-Linkage-Prozesses
Description

Die Datenschmiede.ai GmbH entwickelt eine KI-basierte Software, mit der die Datenintegration und Duplikats-Erkennung nahezu vollständig automatisiert wird. Bereits in der aktuellen Software werden einige KI-Algorithmen eingesetzt. Ziel dieser Abschlussarbeit ist es, Large Language Modells, wie Chat-GPT, zu untersuchen, inwieweit diese entlang des Record-Linkage-Prozesses eingesetzt werden können. Record Linkage wird in die Bereich Big Data, Datenintegration, Data Science sowie Data Engineering eingeordnet. Der Record-Linkage-Prozess besteht aus den Schritten (1) Schema Matching (2) Data Preparation, (3) Blocking, (4) Comparison, (5) Classification, (6) Evaluation. Für alle Prozessschritte existieren implementierte Lösungen, sodass ein Benchmark mit während der Bearbeitung entstehenden LLM-Lösungen durchgeführt werden kann. Zudem werden synthetische und reale Datensätze für die Entwicklung bereitgestellt.

Folgende Links als erste weiterführende Informationen zum Thema:

https://sarang-ai.medium.com/record-linking-across-millions-of-rows-large-language-models-to-the-rescue-96d611890df

https://arxiv.org/abs/2305.03423

Die Betreuung der Abschlussarbeit übernimmt Uni-seitig Jan-Philipp Awick. Seitens der Datenschmiede.ai betreuen Dr. Felix Kruse und Christoph Schröer die Abschlussarbeit.

Home institution Department of Computing Science
Type of work practical / application-focused
Type of thesis Bachelor's or Master's degree
Author Jan-Philipp Awick
Status available
Problem statement
Ziel dieser Abschlussarbeit ist es, Large Language Modells, wie Chat-GPT, zu untersuchen, inwieweit diese entlang des Record-Linkage-Prozesses eingesetzt werden können.
Requirement
  • Eigeninitiative
  • eine hohe Lernbereitschaft
  • Engagement, um gemeinsam mit dem KI-Startup Datenschmiede.ai ein innovatives Thema zu erarbeiten.
Created 19/09/23

Study data

Departments
  • Very Large Business Applications
Degree programmes
  • Bachelor's Programme Business Informatics
  • Master's Programme Computing Science
  • Bachelor's Programme Computing Science
  • Master's Programme Business Informatics
Assigned courses
Contact person