Integration von Data und Workflow Provenance im OPM / PROV-DM

Integration of Data and Workflow Provenance in OPM / PROV-DM

Student

  • Chukwuka Victor Obionwu

Betreuer / Ansprechpartner

  • Andreas Heuer
  • Tanja Auge

Gutachter

  • Andras Heuer
  • Karsten Wolf

Typ der Arbeit

  • Masterarbeit

Charakter der Arbeit

  • Theorie
  • Konzeption

Vorkenntnisse

  • Theorie relationaler Datenbanken (TRDB)
  • Grundlange der Datenbankforschung (GDBF)
  • Modelle für Geschäftsprozesse

Beschreibung

Das Forschungsgebiet Data Provenance beschäftigt sich mit der Rückverfolgung der Herkunft von statistischen Auswertungen / Anfrageergebnissen bis hin zu den Originaldaten. Eine Teilfragestellung ist etwa die Berechnung einer minimalen Teilmenge der Originaldaten, die die Replizierbarkeit der Auswertung ermöglicht. Das Forschungsgebiet Workflow Provenance untersucht als Verallgemeinerung der Data Provenance allgemeine Scientific Workflows, um bei komplexen Arbeitsabläufen feststellen zu können, welche Akteure, Prozesse oder Daten das Ergebnis einer wissenschaftlichen Untersuchung beeinflusst haben können.

Es gibt bereits einige Versuche, die beiden Gebiete durch eine Formalisierung der Workflow Provenance zu verknüpfen. So sind auf Basis des Open Provenance Model (OPM) und des darauf aufbauenden W3C-Standards PROV-DM nicht nur Formalisierungen der Workflow Provenance entstanden, sondern auch Eigenschaften wie Vollständigkeit (completeness) und Gültigkeit (soundness) von Provenance-Graphen abgeleitet worden.

Diese Masterarbeit soll sich einen Überblick über die Arbeiten der Formalisierung von OPM und PROV-DM verschaffen und feststellen, welche weiteren Arbeiten zur Anbindung an die Data-Provenance-Arbeiten im Rostocker ProSA-Projekt notwendig sind. Es soll ein erster Ansatz für ein formales Konzept erarbeitet werden, das Data und Wiorkflow Provenance vereinheitlicht.

Arbeitsschritte

Einarbeitung in das Gebiet:

  • Grundlagen der Data Provenance und Workflow Provenance, etwa nach Herschel

  • Formalisierung von OPM und PROV-DM, etwa nach van den Bussche

Literaturrecherche:

  • Formale Modelle der Data Provenance

  • Formale Modelle für OPM und PROV-DM

  • Untersuchungen zu Eigenschaften von OPM-Graphen

Konzeption:

  • Vereinheitlichtes Konzept für Data und Workflow Provenance

  • Ableitung von nötigen Eigenschaften von OPM-Graphen, die Data Provenance als Teilschritt unterstützen

Literatur

  • Melanie Herschel, Ralf Diestelkämper, Houssem Ben Lahmar, A survey on provenance: What for? What form? What from?, VLDB J., 26, 6, 881--906, 2017

  • Luc Moreau, Paul T. Groth: An Introduction to PROV, Morgan Claypool, 2013

  • Luc Moreau, Ben Clifford, Juliana Freire, Joe Futrelle, Yolanda Gil, Paul T. Groth, Natalia Kwasnikowska, Simon Miles, Paolo Missier, Jim Myers, Beth Plale, Yogesh Simmhan, Eric G. Stephan, Jan Van den Bussche: The Open Provenance Model core specification (v1.1), Future Generation Comp. Syst., 27, 6, 743—756, 2011

  • Natalia Kwasnikowska, Luc Moreau, Jan Van den Bussche: A Formal Account of the Open Provenance Model, TWEB, 9, 2, 10:1--10:44, 2015

  • Umut A. Acar, Peter Buneman, James Cheney, Jan Van den Bussche, Natalia Kwasnikowska, Stijn Vansummeren: A Graph Model of Data and Workflow Provenance, TaPP, USENIX Association, 2010

  • Luc Moreau, Paul T. Groth, James Cheney, Timothy Lebo, Simon Miles: The rationale of PROV, J. Web Semant., 35, 235—257, 2015

  • Trung Dong Huynh, Mark Ebden, Joel E. Fischer, Stephen J. Roberts, Luc Moreau: Provenance Network Analytics - An approach to data analytics using data provenance, Data Min. Knowl. Discov., 32, 3, 708--735, 2018

  • Tanja Auge, Andreas Heuer: Combining Provenance Management and Schema Evolution, IPAW, Lecture Notes in Computer Science, 11017, 222—225, Springer, 2018