Konzeption eines ETL-Prozesses zur Ermittlung von Kennzahlen aus Audioaufnahmen als Vorbereitungsschritt einer Plagiatserkennung

Betreuer / Ansprechpartner

  • Hannes Grunert

    Charakter

      • Konzeption
      • Prototypische Implementierung

      Vorkenntnisse

        • Pflicht: Vorlesung Data Science
        • Optional: Digitale Bibliotheken und Multimedia-Information-Retrieval

        Beschreibung

        Die Überprüfung der Einhaltung wissenschaftlicher Standards und Leitlinien stellt eine große Herausforderung dar. Insbesondere die Betreuung studentischer Abschlussarbeiten nimmt einen Großteil der Arbeitszeit von wissenschaftlichen Mitarbeitern ein, da diese die Arbeiten sorgfältig prüfen und den Studierenden (rechtzeitig) Feedback zur Qualität der Arbeit geben sollten. Eine Entlastung der Lehrenden an dieser Stelle ist sehr wünschenswert.
        Durch Methoden des Multimedia Information Retrieval lassen sich verschiedene Kennzahlen und abgeleitete Werte über einzelner Audiodateien bzw. Paare von Audiodateien einer Dokumentkollektion ableiten. Auf Basis dieser Kennzahlen lässt sich anschließend eine Plagiatsüberprüfung realisieren.
        Im Rahmen dieser Bachelor- bzw. Masterarbeit soll zunächst eine Übersicht erarbeitet werden, welche Konzepte zur Extraktion von Kennzahlen aus Audiodateien darstellt und vergleicht. Davon ausgehend soll ein ETL-Prozess konzipiert und implementiert werden, der es ermöglicht, verschiedene Datenformate auszulesen, die benötigten Kennzahlen zu extrahieren und in einem Data Warehouse abzuspeichern. Eine Evaluation des Ansatzes schließt die Arbeit ab.

        Arbeitsschritte

        • Einarbeitung in das Gebiet / Literaturanalyse / Stand der Technik
          • Plagiatserkennung
          • Multimedia Information Retrieval
        • Konzeption
          • ETL-Prozess
          • Ableitung von Kennzahlen aus Audiodateien
        • Implementierung des Konzepts
        • Test und Validierung des Verfahrens

        Technologien

          • SQL
          • Programmiersprachen nach Wahl; bevorzugt Java

          Literatur

            • Baeza-Yates, Ricardo, Ribeiro-Neto, Berthier: Modern Information Retrieval: The Concepts and Technology behind Search, 2nd Edition, ACM Press Books, Addison-Wesley Professional, 2011
            • Grossman, David A., and Ophir Frieder. Information retrieval: Algorithms and heuristics. Vol. 15. Springer Science & Business Media, 2004.
            • Weitere Literatur wird zu Beginn der Arbeit bekannt gegeben.