Personal details
Title | Einsatzpotenziale von Large Language Modells entlang des Record-Linkage-Prozesses |
Description | Die Datenschmiede.ai GmbH entwickelt eine KI-basierte Software, mit der die Datenintegration und Duplikats-Erkennung nahezu vollständig automatisiert wird. Bereits in der aktuellen Software werden einige KI-Algorithmen eingesetzt. Ziel dieser Abschlussarbeit ist es, Large Language Modells, wie Chat-GPT, zu untersuchen, inwieweit diese entlang des Record-Linkage-Prozesses eingesetzt werden können. Record Linkage wird in die Bereich Big Data, Datenintegration, Data Science sowie Data Engineering eingeordnet. Der Record-Linkage-Prozess besteht aus den Schritten (1) Schema Matching (2) Data Preparation, (3) Blocking, (4) Comparison, (5) Classification, (6) Evaluation. Für alle Prozessschritte existieren implementierte Lösungen, sodass ein Benchmark mit während der Bearbeitung entstehenden LLM-Lösungen durchgeführt werden kann. Zudem werden synthetische und reale Datensätze für die Entwicklung bereitgestellt. Folgende Links als erste weiterführende Informationen zum Thema: https://arxiv.org/abs/2305.03423 |
Home institution | Department of Computing Science |
Type of work | practical / application-focused |
Type of thesis | Bachelor's or Master's degree |
Author | Jan-Philipp Awick |
Status | available |
Problem statement | Ziel dieser Abschlussarbeit ist es, Large Language Modells, wie Chat-GPT, zu untersuchen, inwieweit diese entlang des Record-Linkage-Prozesses eingesetzt werden können. |
Requirement |
|
Created | 19/09/23 |