So-tgds und Skolemisierung für ChaTEAU

Student

  • Max Tilman Kaseler

Beschreibung

Der CHASE ist eine Basistechnik in der Datenbanktheorie, welcher für verschiedene Anwendungsfälle genutzt werden kann: (1) Möchte man k heterogene Datenbanken integrieren, so kann man mit dem CHASE den integrierten Datenbestand aus Korrespondenzen zwischen den k Datenbanken berechnen. (2) Möchte man eine Anfrage (etwa aus Datenschutzgründen) in eine andere Anfrage umformen, die nur auf erlaubte Sichten auf einen Datenbestand zugreift, so kann man mit dem CHASE die Informationen über die verfügbaren Sichten in die Anfrage einbauen. (3) Möchte man eine Anfrage unter Integritätsbedingungen optimieren, so kann man die Integritätsbedingungen mit Hilfe des CHASE in eine Anfrage einarbeiten. (4) Möchte man die Herkunft von Daten bei einer wissenschaftlichen Auswertung berechnen (Provenance), so muss eine inverse Abbildung zur gegebenen Auswertung berechnet werden. Für die Fälle (2) bis (4) wird der CHASE hierfür um eine zweite Phase, den BACKCHASE erweitert, der die Ermittlung der gesuchten Ergebnisanfrage erst ermöglicht.

ChaTEAU vereint einige dieser Anwendungsfälle. Für eine möglichst umfassende Anwendbarkeit von ChaTEAU fehlt jedoch noch die Einbindung von second-order tgds (so-tgds) zur Verarbeitung von Anfragen mit Funktionen. Hierfür muss zunächst geklärt werden, in welchen Fällen so-tgds überhaupt auftreten können und welche Schwierigkeiten dies mit sich bringen kann. Ziel dieser Arbeit ist daher:

  • die Aufarbeitung der Theorie von so-tgds im CHASE sowie ihre konzeptuelle Integration in ChaTEAU;

  • die Untersuchung der Komposition von s-t tgds auf die Frage, wann und wie sich so-tgds überhaupt ableiten lassen;

  • die Einbindung der Skolemisierung als Sonderfall spezieller Funktionen. Hierbei sollen so-tgds vermieden und ein Hash-Verfahren genutzt werden (inklusive Implementierung).

Arbeitsschritte

  • Einarbeitung in das Gebiet:
    • Grundlagen des CHASE
    • Funktionsweise von ChaTEAU
  • Literaturrecherche:
    • so-tgds sowie CHASE auf so-tgds nach Fagin
    • Skolemisierung
  • Konzeption:
    • Entwicklung eines Konzeptes zur Einbindung von so-tgds in ChaTEAU
    • Untersuchung der Komposition von (s-t) tgds
    • Einbindung der Skolemisierung (möglichst ohne die Verwendung von so-tgds)
  • Implementierung:
    • Implementierung der Skolemisierung

Literatur

  • M. Benedikt, G. Konstantinidis, G. Mecca, B. Motik, P. Papotti, D. Santoro, E. Tsamoura: Benchmarking the Chase.
    In: PODS 2017, pp. 37-52, 2017
  • A. Doan, A. Y. Halevy, Z. G. Ives: Principles of Data Integration, Morgan Kaufmann, 2012 R. Fagin, P. G. Kolaitis, L. Popa, W. C. Tan: Schema Mapping Evolution through Composition and Inversion.
    In: Schema Matching and Mapping, pp. 191–222. Springer, 2011
  • R. Fagin, P. G. Kolaitis, L. Popa, W. C. Tan: Composing Schema Mappings: Second-Order Dependencies to the Rescue.
    In: ACM Trans. Database Syst. 4(30), pp .994–1055, 2005
  • R. Fagin, P. G. Kolaitis, L. Popa, W. C. Tan: Reverse data exchange: coping with nulls.
    In: PODS 2009, pp. 23-32, 2009
  • Notizen aus der laufenden Dissertation von Tanja Auge
  • Jakob Zimmer: Vereinheitlichung des CHASE auf Instanzen und Anfragen am Beispiel ChaTEAU.
    Bachelorarbeit, DBIS, Universität Rostock, 2020
  • Jakob Zimmer: Datenintegration durch inverse Schemaabbildungen: Erweiterung der Rostocker GaLVE-Technik.
    Masterarbeit, DBIS, Universität Rostock, 2021
  • Ivo Kavisanczki: Erweiterung des ProSA-Parsers.
    Bachelorarbeit, DBIS, Universität Rostock, 2022
  • Nic Scharlau: Anonymisierung von Data Provenance in ProSA.
    Masterarbeit, DBIS, Universität Rostock, 2022