Thema: Automatisierte Extraktion von Metadaten aus einem Softwarerepository

Thema: Automatisierte Extraktion von Metadaten aus einem Softwarerepository

Grunddaten

Titel Automatisierte Extraktion von Metadaten aus einem Softwarerepository
Beschreibung

Mit Metadaten kann Software generell beschrieben und wichtige Charakteristiken benannt werden, sodass die Software hinsichtlich der FAIR-Kriterien - Findable, Accessible, Interoperable und Reusable (FAIR) besser wird [1]. Damit folgen strukturierte Metadaten bestimmten Schemata. Für Forschungssoftware wird häufig CodeMeta[1] verwendet.

Dabei ist die Beschreibung von Software mit Metadaten aktuell noch sehr aufwendig, da viele Daten manuell erfasst werden müssen. In einer Vorarbeit wurde bereits ein Ansatz entwickelt, die in gitlab enthaltenen Metadaten automatisiert zu extrahieren. Darüber hinaus liegen aber besonders in der readme und Dokumentation von Software noch mehr Metadaten, die automatisiert ausgelesen werden können, z.B. mit dem Software Metadata Extraction Framework[2].


[2] https://github.com/KnowledgeCaptureAndDiscovery/somef
 

[1]          A.-L. Lamprecht et al., “Towards FAIR principles for research software,” Data Science, vol. 3, no. 1, pp. 37–59, Jan. 2020, doi: 10.3233/DS-190026 .

Heimateinrichtung Department für Informatik
Art der Arbeit praktisch / anwendungsbezogen
Abschlussarbeitstyp Bachelor oder Master
Autor Stephan Alexander Ferenz, M. Sc.
Status abgeschlossen
Aufgabenstellung

Ziel der Arbeit ist es, möglichst viele Metadaten automatisiert aus verschiedenen Softwarerepositorien, wie Gitlab und Github, zu extrahieren, auf die Metadatenelemente von CodeMeta zu mappen und anschließend als CodeMeta Metadaten abzuspeichern.

Dazu sollen zunächst analysiert werden, welche Metadatenelemente von CodeMeta automatisiert gefüllt werden können. Insbesondere soll dabei geprüft werden, wie Metadaten, die das Software Metadata Extraction Framework extrahiert auf die Elemente von CodeMeta mappt. Anschließend soll ein Tool entwickelt werden, dass diesen automatisierten Prozess vollzieht.

Die Aufgabe teilt sich in folgende Arbeitspakete:

  • Analyse der Automatisierbarkeit der Metadatenelemente von CodeMeta
  • Mappingen vom Software Metadata Extraction Framework auf CodeMeta 
  • Erstellung eines Tools zur automatisierten Extraktion von Metadaten
  • Prüfung des Tools an geeigneten Repositories
Voraussetzung
  • Programmierkenntnisse
  • Idealerweise Grundkenntnisse im Bereich Metadaten und/oder Semantic Web
Erstellt 28.04.2022
Abgeschlossen am 26.03.2024

Studiendaten

Abteilungen
  • Digitalisierte Energiesysteme
Studiengänge
  • Fach-Bachelor Wirtschaftsinformatik
  • Master European Master in Renewable Energy
  • Master Sustainable Renewable Energy Technologies
  • Master Engineering Physics
  • Master Informatik
  • Fach-Bachelor Engineering Physics
  • Fach-Bachelor Informatik
  • Master Wirtschaftsinformatik
Zugeordnete Veranstaltungen
Ansprechpartner