Erweiterung des CHASE-Werkzeugs ChaTEAU um Anfragetransformationen

Extending the CHASE-Tool ChaTEAU by query transformations

Student

  • Fabian Renn

Betreuer / Ansprechpartner

  • Andreas Heuer
  • Tanja Auge

Gutachter

  • Andreas Heuer
  • Holger Meyer

Typ der Arbeit

  • Bachelorarbeit

Charakter der Arbeit

  • Konzeption

  • Teil-Implementierung

Vorkenntnisse

  • Datenbanken I 
  • Datenbanken II
  • Informationssysteme und -dienste (ISID)
  • Java-Grundkenntnisse

Beschreibung

Der CHASE ist eine Basistechnik in der Datenbanktheorie. (1) Möchte man k heterogene Datenbanken integrieren, so kann man mit dem CHASE den integrierten Datenbestand aus Korrespondenzen zwischen den k Datenbanken berechnen. (2) Möchte man eine Anfrage (etwa aus Datenschutzgründen) in eine andere Anfrage umformen, die nur auf erlaubte Sichten auf einen Datenbestand zugreift, so kann man mit dem CHASE die Informationen über die verfügbaren Sichten in die Anfrage einbauen. (3) Möchte man eine Anfrage unter Integritätsbedingungen optimieren, so kann man die Integritätsbedingungen mit Hilfe des CHASE in eine Anfrage einarbeiten. (4) Möchte man die Herkunft von Daten bei einer wissenschaftlichen Auswertung berechnen (Provenance), so muss eine inverse Abbildung zur gegebenen Auswertung berechnet werden: auch hier gibt es diverse auf dem CHASE basierende Invertierungstechniken. Wendet man den CHASE für die Fälle (2) bis (4) an, so wird dem CHASE noch ein zweiter BACKCHASE- Prozess hinzugefügt, der die Ermittlung der gesuchten Ergebnisanfrage erst ermöglicht.

Für obige Anwendungsprobleme soll ein grundlegendes CHASE- und BACKCHASE-Werkzeug konzipiert und prototypisch implementiert werden. Dem Werkzeug sollen sowohl Datenbestände als auch Anfragen übergeben werden können. Die Schnittstellen sollen sich dabei an relationale Tabellen und ein Kern-SQL anlehnen. Bisher wurde in einer Vorarbeit von Jurklies das CHASE- Tool ChaTEAU auf Datenbestände angewendet, die Hauptanwendung hier war das Cleaning von Datenbanken. Dieses Tool soll um folgende Aspekte erweitert werden:

  • Getrennte Ein- und Ausgabe

  • Anwendung auf Anfragetransformationen etwa für den Fall der Optimierung

Über diese Arbeit hinaus soll das Tool zudem folgende Aspekte enthalten:

  • Erweiterung der bestehenden tgds auf s-t tgds

  • Erweiterung um eine BACKCHASE-Phase

Arbeitsschritte

Einarbeitung in das Gebiet:

  • Grundlagen des CHASE
  • Einarbeiten in existierende Programme (Masterarbeit Jurklies, Dissertation Bruder)

  • Anwendungen: Anfragetransformation zur Optimierung, Datenbankintegration

Konzeption

  • Erweiterung der Grundalgorithmen und grundlegenden Datenstrukturen für CHASE zur Anwendung auf Anfragen

  • Konzept für Ein- und Ausgabe

Prototypische Implementierung für einfache Teilfälle

Literatur

  • Michael Benedikt, George Konstantinidis, Giansalvatore Mecca, Boris Motik, Paolo Papotti, Donatello Santoro, Efthymia Tsamoura: Benchmarking the Chase. PODS 2017: 37-52

  • AnHai Doan, Alon Y. Halevy, Zachary G. Ives: Principles of Data Integration, Morgan Kaufmann, 2012 (Lehrbuch)

  • Martin Jurklies: CHASE und BACKCHASE: Entwicklung eines Universal-Werkzeugs für eine Basistechnik der Datenbankforschung. Masterarbeit, Universität Rostock, Institut für Informatik (2018)