Topic: Entwicklung und Evaluierung eines deutschen Benchmark-Datensatzes für Retrieval-Augmented Generation (RAG) Systeme

Topic: Entwicklung und Evaluierung eines deutschen Benchmark-Datensatzes für Retrieval-Augmented Generation (RAG) Systeme

Personal details

Title Entwicklung und Evaluierung eines deutschen Benchmark-Datensatzes für Retrieval-Augmented Generation (RAG) Systeme
Description

Hintergrund

Retrieval-Augmented Generation (RAG) verbindet Informationsabruf mit generativen Sprachmodellen. Während für englischsprachige RAG-Systeme zahlreiche Benchmarks existieren, fehlen vergleichbare Ressourcen für den deutschen Sprachraum. Diese Masterarbeit soll diese Lücke schließen.

Zielsetzung

Ziel dieser Arbeit ist die Erstellung und Validierung eines umfassenden deutschen Benchmark-Datensatzes zur Evaluierung von RAG-Systemen über verschiedene Fachdomänen hinweg.

Grundlegende Begriffe

  • Retrieval-Augmented Generation (RAG): Technologie, die Sprachmodelle mit einer Wissensdatenbank verbindet, um faktisch korrekte und kontextbezogene Antworten zu generieren
  • Embedding: Vektordarstellung von Texten, die semantische Ähnlichkeiten abbildet
  • Datenleakage: Unbeabsichtigtes Durchsickern von Evaluierungsdaten in Trainingsdaten, was zu verfälschten Ergebnissen führt
  • Benchmark-Datensatz: Standardisierte Sammlung von Testdaten zur vergleichenden Bewertung verschiedener Systeme

Datentypologie und Multimodalität

Der Benchmark soll verschiedene Datentypen umfassen, um der Vielfalt moderner KI-Systeme gerecht zu werden:

  • Textbasierte Daten für klassische LLM-basierte RAG-Systeme
  • Multimodale Kombinationen (Text-Bild) zur Evaluierung von multimodalen Modellen
  • Strukturierte und unstrukturierte Informationen aus verschiedenen Quellen Diese Diversität gewährleistet eine umfassende Evaluierung unterschiedlicher RAG-Implementierungen.

Evaluierungsmetriken

Der zu entwickelnde Benchmark könnte folgende Bewertungsdimensionen umfassen:

  1. Abrufqualität (Retrieval Quality):
    • Precision, Recall, F1: Messung, ob relevante Dokumente abgerufen werden
    • Mean Average Precision (MAP) und Normalized Discounted Cumulative Gain (NDCG): Bewertung der Ranking-Qualität
    • Retrieval Precision@k: Beurteilung der Präzision an verschiedenen Schwellenwerten
  2. Generierungsqualität (Generation Quality):
    • ROUGE/BLEU/BERTScore: Messung der Textähnlichkeit zu Referenzantworten
    • Faktische Konsistenz: Überprüfung, ob generierte Inhalte Faktenfehler enthalten
    • Halluzinationsrate: Erfassung, wann das Modell Informationen generiert, die nicht im abgerufenen Kontext enthalten sind
  3. End-to-End-Leistung:
    • Antwortrelevanz: Bewertung der Gesamtqualität der Antwort in Bezug auf die Frage
    • Kontextnutzung: Beurteilung, wie gut das System abgerufene Informationen verwendet
    • Wissensverifizierung: Überprüfung von Antworten gegen etablierte Wissensbasen

Potenzielle Aufgabenbereiche

  1. Datenakquise:
    • Identifizierung und Sammlung von geeigneten deutschen Textquellen und Bildmaterialien
    • Dokumentation der Datenherkunft und Sicherstellung der Nutzungsrechte
  2. Datensatzdesign:
    • Entwicklung einer Struktur für Frage-Antwort-Paare (textbasiert und multimodal)
    • Erstellung von Anfragen mit verschiedenen Schwierigkeitsgraden
    • Kategorisierung nach Domänen und Anfragetypen
  3. Methodenentwicklung:
    • Anpassung bestehender Evaluierungsmetriken für deutsche Sprachspezifika
    • Implementierung von Metriken für Abrufqualität und Antwortgenerierung
    • Entwicklung von Strategien zur Vermeidung von Datenleakage
  4. Validierung:
    • Empirische Überprüfung des Datensatzes mit verschiedenen RAG-Implementierungen
    • Analyse der Diskriminierungsfähigkeit des Benchmarks
    • Vergleich mit bestehenden multilingualen Benchmarks

Erwartete Ergebnisse

  • Ein strukturierter, dokumentierter Benchmark-Datensatz für deutsche RAG-Systeme
  • Eine technische Dokumentation der Methodik und Evaluierungsmetriken
  • Eine kritische Analyse der Herausforderungen bei der RAG-Evaluierung im deutschen Sprachraum
  • Open-Source-Veröffentlichung des Datensatzes für die Forschungsgemeinschaft

Anforderungen an Bewerber/innen

  • Fortgeschrittene Kenntnisse in NLP und Information Retrieval
  • Programmiererfahrung (Python, vorzugsweise mit Bibliotheken wie HuggingFace, PyTorch)
  • Gute analytische Fähigkeiten und methodisches Arbeiten
  • Sehr gute Deutschkenntnisse
  • Vorteilhaft: Erfahrung mit multimodalen Modellen und Bildverarbeitung
Home institution Department of Computing Science
Associated institutions
Type of work practical / application-focused
Type of thesis Master's degree
Author Jan-Hendrik Witte
Status available
Problem statement
Requirement
Created 25/02/25

Study data

Departments
  • Very Large Business Applications
Degree programmes
  • Master's Programme Computing Science
  • Master's Programme Business Informatics
Assigned courses
Contact person