Provenance-Anfragen mit intensionalen Antworten und inversen Schemaabbildungen zur Sicherung der Rekonstruierbarkeit wissenschaftlicher Auswertungen

(als Masterarbeit)

Betreuer / Ansprechpartner

  • Andreas Heuer
  • Tanja Auge

Charakter

  • Theoretische Grundlagen
  • Verfahrensentwicklung
  • evtl. prototypische Implementierung

Vorkenntnisse

  • DB I
  • DigBib
  • TRDB

Beschreibung

In einer Bachelorarbeit (Jan Svacina) und diversen studentischen Arbeiten des NEidI-Teilprojektes im Sommer 2016 wurden bereits Provenance-Anfragen why, where, how und why not untersucht. Teilweise wurden die üblicherweise extensional vorliegenden Antworten bereits durch intensionale (beschreibende) Antworten ersetzt. In dieser Arbeit sollen die bisherigen Techniken so erweitert werden, dass bei den in SQL ausgedrückten wissenschaftlichen Auswertungen in einer Big-Data-Umgebung die Teile der Originaldaten durch inverse Schemaabbildungen so fixiert werden, dass sie „eingefroren“ werden können und somit die Rekonstruierbarkeit der wissenschaftlichen Auswertung auch für spätere Zeiten gesichert ist. Die einzufrierenden Daten sollen auf eine minimale Basis beschränkt werden. Um (abgeschwächt) nur die Plausibilität der wissenschaftlichen Ergebnisse zu sichern, reicht es eventuell, intensionale Eigenschaften der Originaldaten statt der vollständigen Originaldaten zu sichern. Hierfür sollen Vorschläge entwickelt werden.

Arbeitsschritte

  • Einarbeitung in das Gebiet: Grundlagen des Provenance Management, why-, where- und how-Provenance
  • Analyse der Vorarbeiten: Ableitung intensionaler Antworten, Nutzung inverser Schemaabbildungen
  • Literaturrecherche:
    • Techniken zur Berechnung inverser Schemaabbildungen
    • Anwendung des CHASE-Verfahrens, um als Ziel der inversen Abbildung eine Antwort auf die Provenance-Anfragen zu generieren
  • Verfahrensentwicklung: Anwendung der inversen Schemaabbildungen auf die Provenance-Anfragen zur Ableitung extensionaler und intensionaler Antworten
  • Evtl. Prototypische Implementierung für einfache Teilfälle, als Demonstrator

Technologien

  • für evtl. prototypische Umsetzung passende Werkzeuge und Programmiersprachen

Literatur

  • Fagin, R.; Kolaitis, P.G.; Popa, L.; Tan, W.C.: Schema mapping evolution through composition and inversion. In: Bellahsene, Z.; Bonifati, A.; Rahm, E. (Hrsg.): Schema Matching and Mapping, S. 191--222. Springer, 2011
  • Deutsch, A.; Hull, R.: Provenance-Directed Chase and Backchase. In: In Search of Elegance in the Theory and Practice of Computation, Band 8000, Lecture Notes in Computer Science, Seiten 227-236,  Springer-Verlag, Berlin Heidelberg, 2013
  • AnHai Doan, Alon Y. Halevy, Zachary G. Ives: Principles of Data Integration, Morgan Kaufmann, 2012 (Lehrbuch)
  • J. Cheney, L. Chiticariu, W.C. Tan.: Provenance in Databases: Why, How, and Where. Foundations and Trends in Databases, Band 1, Heft 4, 2009.
  • Heuer, A.: METIS in PArADISE: Provenance Management bei der Auswertung von Sensordatenmengen für die Entwicklung von Assistenzsystemen. Datenbanksysteme für Business, Technologie und Web (BTW 2015) - Workshopband, 2.-3. März 2015, Hamburg, Lecture Notes in Informatics, Band 242, Seiten 131--136, 2015