Entwicklung einer WossiDiA-Python-Schnittstelle

Student

  • Tarreq Dahrouj

Beschreibung

Das WossiDiA-System [1] benutzt semi-strukturierte Daten (XML) und Hypergraphstrukturen zur Darstellung der komplexe Vernetzung der digitalen Archivinhalte der volkskundlichen Sammlung Richard Wossidlos.  Mit dem Hydra/PowerGraph-System [2] steht ein Graphdatenbank-System zur Verfügung das gerichtete, typisierte Hypergraphen als Erweiterung des Property-Graph-Modells [3] verwendet.  Über eine REST-API sind sind elementare Operationen im Sinne einer einfachen Graphalgebra und ausgewählte Graph-Algorithmen nutzbar.

Um geeignete Auswertungen in Python und mit Apache Jupyter oder Zeppelin-Notebooks zu ermöglichen und Frameworks wie GraphX [4], SNAP [5] und NetworkX [6] sowie selbst entwickelte Graph-Mining-Verfahren [7, 8, 9, 10] nutzen zu können, ist ein Python-Modul zur Darstellung der Hypergraphdaten, ihre Transformation in gerichtete/ungerichtete Graph (clique-/star-expansion) zu konzipieren.  Der Zugriff auf WossiDiA ist über die REST-API zu ermöglichen.  Im Vorfeld sind ähnliche Frameworks auf Schnittstellengestaltung und angebotene Funktionalität zu analysieren.

Die zu entwerfende Modulstruktur und der definierte Funktionsumfang in Form entsprechender Klassen und Methodenaufrufen ist prototypisch zu implementieren und dokumentieren.  Die einfache Nutzbarkeit und Kombinationsmöglichkeiten mit Frameworks wie Apache Spark Graph, GraphX sowie Paketen wie networkx oder karateclub ist zu zeigen.  Dazu sind beispielhaft Graph-Mining-Szenarien mit Zeppelin-Notebooks umzusetzen.

Arbeitsschritte

  • Recherche, Aufbereitung und Klassifikation existierender Pythen-APIs für Graphdatenbanken; Darstellung des State-of-the-Art
  • Kritische Bewertung dieser Ansätzen auf Eignung für die REST-API des Hypergraph-Datenbanksystem Hydra/PowerGraph
  • Untersuchung der Kopplungsmöglichkeiten mit Graph-Analyse- und Visualisierungs-Framework wie etwa GraphX oder NetworkX
  • Entwurf des Modulkonzeptes und Definition der Schnittstellenklassen und-methoden
  • Prototypische Umsetzung mit der Hydra/PowerGraph-REST-API und Einbindung in Zeppelin-Notebooks

Literatur

  1. Meyer, Holger; Alf-Christian Schering and Christoph Schmitt, WossiDiA – The Digital Wossidlo Archive, in: Holger Meyer el al (Hrsg.), Corpora ethnographica online – Strategien der Digitalisierung kultureller Archive und ihrer Präsentation im Internet, Volume 5 of Rostocker Beiträge zur Volkskunde und Kulturgeschichte, Waxmann, 2014, 61–84.
  2. Meyer, Holger; Alf-Christian Schering and Andreas Heuer:  The Hydra.PowerGraph System - Building Digital Archives with Directed and Typed Hypergraphs. Datenbank-Spektrum 17(2): 113-129 (2017)
  3. Renzo Angles:  The Property Graph Database Model. AMW 2018.
  4. Gonzalez, Joseph E., et al. "GraphX: Graph Processing in a Distributed Dataflow Framework." 11th USENIX symposium on operating systems design and implementation (OSDI 14). 2014.
  5. Leskovec, Jure, and Rok Sosič. "Snap: A general-purpose network analysis and graph-mining library." ACM Transactions on Intelligent Systems and Technology (TIST) 8.1 (2016): 1-20.
  6. Hagberg, P. Swart, and D. S Chult. Exploring network structure, dynamics, and function using networkx. Technical report, Los Alamos National Laboratory (LANL), 2008.
  7. Ole Fenske: Parallele Graph-Mining-Techniken zur Auswertung von Hypergraph-Strukturen.  Bachelorarbeit, Universität Rostock, Institut für Informatik, 2018
  8. Tae Keun Jeong: Data- und Graph-Mining in Erzähldatenbanken. Bachelorarbeit, Universität Rostock, Institut für Informatik, 2020
  9. Sarah Böhnert: Graph-Summarizing in Hypergraphdatenbanken. Bachelorarbeit, Universität Rostock, Institut für Informatik, 2021
  10. Zahra Khorsand: Mining Graph Data in the ISEBEL Project. Masterarbeit, Universität Rostock, Insitut für Informatik, 2021