Implementierung und Parallelisierung Selbstorganisierender Karten in SQL

Betreuer / Ansprechpartner

  • Hannes Grunert

    Charakter

      • Konzeption
      • Prototypische Implementierung

      Vorkenntnisse

        • Pflicht: Vorlesung Data Science bzw. Vorlesung Data Warehouses
        • Optional: Vorlesung Digitale Bibliotheken und Multimedia-Information-Retrieval

        Beschreibung

        Die Überprüfung der Einhaltung wissenschaftlicher Standards und Leitlinien stellt eine große Herausforderung dar. Insbesondere die Betreuung studentischer Abschlussarbeiten nimmt einen Großteil der Arbeitszeit von wissenschaftlichen Mitarbeitern ein, da diese die Arbeiten sorgfältig prüfen und den Studierenden (rechtzeitig) Feedback zur Qualität der Arbeit geben sollten. Eine Entlastung der Lehrenden an dieser Stelle ist sehr wünschenswert.

        Durch Methoden des Information Retrieval und des Natural Language Processings lassen sich verschiedene Kennzahlen und abgeleitete Werte über einzelne Texte bzw. Paare von Texten einer Dokumentkollektion ableiten. Hierzu gehören z.B. Jaccard-Koeffizienten über Zeichen- oder Wort-n-Grammen sowie die Ergebnisse einer Sentiment-Analyse. Auf Basis dieser Informationen können unterschiedliche Data-Mining-Techniken, wie Selbstorganisierende Karten, verwendet werden, um die Ähnlichkeiten der Dokumente zu bestimmen. 

        Im Rahmen dieser Masterarbeit soll eine Umsetzung Selbstorganisierender Karten in SQL konzipiert und implementiert werden. Dazu sollen geeignete Darstellungen der Eingabevektoren und der Kartenschicht untersucht werden, eine rekursive Umsetzung des Algorithmus des Verfahrens realisiert und abschließend die Parallelisierung des Verfahrens angestrebt werden. Eine Evaluation des Ansatzes schließt die Arbeit ab.

        Arbeitsschritte

        • Einarbeitung in das Gebiet / Literaturanalyse / Stand der Technik
          • Plagiatserkennung
          • Kennzahlen über textuelle Informationen
        • Konzeption
          • Auswahl geeigneter Kennzahlen
          • Aufbau der Selbstorganisierenden Karte
          • Bestimmung ähnlicher Textdokumente
        • Implementierung des Konzepts
        • Test und Validierung des Verfahrens

        Technologien

          • Programmiersprachen nach Wahl; bevorzugt Java und SQL

          Literatur

            • Baeza-Yates, Ricardo, Ribeiro-Neto, Berthier: Modern Information Retrieval: The Concepts and Technology behind Search, 2nd Edition, ACM Press Books, Addison-Wesley Professional, 2011
            • Strzalkowski, Tomek. "Natural language information retrieval." Information Processing & Management 31.3 (1995): 397-417.
            • Grossman, David A., and Ophir Frieder. Information retrieval: Algorithms and heuristics. Vol. 15. Springer Science & Business Media, 2004.
            • Ranatunga, R. V. S. P. K., A. S. Atukorale, and K. P. Hewagamage. "Intrinsic plagiarism detection with kohonen self organizing maps." U The International Conference on Advances in ICT for Emerging Regions-ICTer2011. Vol. 125. 2011.