METIS

Dieses Langzeitprojekt (Management, Evolution, Transformation und Integration von Schemata) bündelt Verfahren und Ansätze zur Datenintegration, Datentransformation und Schemaevolution.

Bei der Weiterentwicklung von Anwendungen besteht die Aufgabe der  Schemaevolution und Datenmigration in neue Versionen. Hierzu wurden am Lehrstuhl Evolutionssprachen für flexible  Datenformate wie XML- und JSON-Dokumente entwickelt und Update-Operationen für die Daten abgeleitet. Im Prozess  der Anwendungsevolution wird die Konsistenzhaltung von Schema und zugeordneten Daten über verschiedene Versionen gesichert. Viele agile Anwendungen setzen NoSQL-Datenbanken zur Speicherung heterogenener Daten ein, in diesen sind Daten ohne explizite Schemainformationen gespeichert. Für die konsistente Evolution der Datenbanken und für die Integration der Daten in andere Anwendungen benötigt man jedoch Informationen über deren strukturelle Merkmale. Die Schemaextraktion ermöglicht das nachträgliche Ableiten eines Schemas aus vorhandenen Daten. Das Verfahren wurde auch für sehr große Datenbestände optimiert.

Die Idee der inversen Schemaabbildungen für die Integration heterogener Datenbanken wird bei uns auf neuere Entwicklungen in der Theorie inverser Schemaabbildungen angepasst. Dabei wurden die klassischen Schemaabbildungen verallgemeinert auf den Fall, dass nicht alle relevanten Daten im (relationalen) Schema repräsentiert werden können, sondern zusätzlich auf Instanzebene erfasst werden müssen. Diese zusätzlichen Annotationen helfen bei der inversen Abbildung verdichteter Daten. Im Gegensatz zur traditionellen Datenintegration sollen Anfragen im integrierten System bei diesem Ansatz nicht an das globale Schema gestellt werden, sondern weiterhin an die lokalen Schemata, wobei diese um Daten aus anderen Quellen erweitert werden. Dieser Ansatz wird als Global-as-Local-View-Extension (GaLVE) bezeichnet.

Da der Lehrstuhl durch das Graduiertenkolleg MuSAMA das Problem der Verarbeitung der Sensordaten und die Ableitung von Situations-, Aktivitäts- und Intentions-Modellen kennengelernt hatte, wurde in letzter Zeit auch das Provenance Management, die Rückverfolgbarkeit von Analyseergebnissen bis hin zu den Original-Sensordaten, als Forschungsthema interessant. Inverse Schema-Instanz-Abbildungen von GaLVE werden auch für die Invertierung, also Rückverfolgung, von Analyseprozessen, also allgemeineren Datenbankanfragen, benötigt. Bisher wurden allerdings für die Datenbankintegration nur einfache Anfragen, bestehend aus Selektion, Projektion und Verbund, berücksichtigt (conjunctive queries). Analyseprozesse erfordern eine Erweiterung auf statistische Funktionen (skalare Funktionen, Aggregatfunktionen, OLAP) und allgemeine Workflows. Hier muss ermittelt werden, welche Zusatzinformationen zur Gewährleistung der Rückverfolgbarkeit erfasst werden müssen.

Aktuelle Publikationen

Uta Störl, Daniel Müller, Julian Stenzel, Alex Tekleab, Stephane Tolale, Meike Klettke, Steffi Scherzinger: Curating Variational Data in Application Development, Demo presentation, accepted for ICDE 2018, Paris

Bruder, Ilvio and Klettke, Meike and Möller, Mark Lukas and Meyer, Frank and Heuer, Andreas and Jürgensmann, Susanne and Feistel, Susanne: Daten wie Sand am Meer — Datenerhebung, -strukturierung, -management und Data Provenance für die Ostseeforschung. Datenbank-Spektrum, 17 (2). pp. 183-196, 2017

Bruder, Ilvio and Heuer, Andreas and Schick, Sebastian and Spors, Sascha: Konzepte für das Forschungsdatenmanagement an der Universität Rostock (Concepts for the Management of Research Data at the University of Rostock). In: Lernen, Wissen, Daten, Analysen (LWDA) Conference Proceedings, Rostock, Germany, September 11-13, 2017

Meike Klettke, Hannes Awolin, Uta Störl, Daniel Müller, Stefanie Scherzinger: Uncovering the Evolution History of Data Lakes, 6th Scalable Cloud Data Management Workshop (SCDM) @ IEEE Big Data Conference, Boston, USA, Dezember 2017