METIS

Dieses Langzeitprojekt (Management, Evolution, Transformation und Integration von Schemata) bündelt Verfahren und Ansätze zur Datenintegration, Datentransformation und Schemaevolution.

Bei der Weiterentwicklung von Anwendungen besteht die Aufgabe der  Schemaevolution und Datenmigration in neue Versionen. Hierzu wurden am Lehrstuhl Evolutionssprachen für flexible  Datenformate wie XML- und JSON-Dokumente entwickelt und Update-Operationen für die Daten abgeleitet. Im Prozess  der Anwendungsevolution wird die Konsistenzhaltung von Schema und zugeordneten Daten über verschiedene Versionen gesichert. Viele agile Anwendungen setzen NoSQL-Datenbanken zur Speicherung heterogenener Daten ein, in diesen sind Daten ohne explizite Schemainformationen gespeichert. Für die konsistente Evolution der Datenbanken und für die Integration der Daten in andere Anwendungen benötigt man jedoch Informationen über deren strukturelle Merkmale. Die Schemaextraktion ermöglicht das nachträgliche Ableiten eines Schemas aus vorhandenen Daten. Das Verfahren wurde auch für sehr große Datenbestände optimiert.

Die Idee der inversen Schemaabbildungen für die Integration heterogener Datenbanken wird bei uns auf neuere Entwicklungen in der Theorie inverser Schemaabbildungen angepasst. Dabei wurden die klassischen Schemaabbildungen verallgemeinert auf den Fall, dass nicht alle relevanten Daten im (relationalen) Schema repräsentiert werden können, sondern zusätzlich auf Instanzebene erfasst werden müssen. Diese zusätzlichen Annotationen helfen bei der inversen Abbildung verdichteter Daten. Im Gegensatz zur traditionellen Datenintegration sollen Anfragen im integrierten System bei diesem Ansatz nicht an das globale Schema gestellt werden, sondern weiterhin an die lokalen Schemata, wobei diese um Daten aus anderen Quellen erweitert werden. Dieser Ansatz wird als Global-as-Local-View-Extension (GaLVE) bezeichnet.

Da der Lehrstuhl durch das Graduiertenkolleg MuSAMA das Problem der Verarbeitung der Sensordaten und die Ableitung von Situations-, Aktivitäts- und Intentions-Modellen kennengelernt hatte, wurde in letzter Zeit auch das Provenance Management, die Rückverfolgbarkeit von Analyseergebnissen bis hin zu den Original-Sensordaten, als Forschungsthema interessant. Inverse Schema-Instanz-Abbildungen von GaLVE werden auch für die Invertierung, also Rückverfolgung, von Analyseprozessen, also allgemeineren Datenbankanfragen, benötigt. Bisher wurden allerdings für die Datenbankintegration nur einfache Anfragen, bestehend aus Selektion, Projektion und Verbund, berücksichtigt (conjunctive queries). Analyseprozesse erfordern eine Erweiterung auf statistische Funktionen (skalare Funktionen, Aggregatfunktionen, OLAP) und allgemeine Workflows. Hier muss ermittelt werden, welche Zusatzinformationen zur Gewährleistung der Rückverfolgbarkeit erfasst werden müssen.