ProSA: Provenance Management durch Schema-Abbildungen und Annotationen
Die Sammlung, Auswertung, Analyse, Archivierung und Veröffentlichung von Forschungsdaten sind die Hauptaufgaben des Forschungsdatenmanagements. Forschungseinrichtungen auf der ganzen Welt produzieren Forschungsdaten in großen Mengen. Die Verarbeitung, Analyse und Speicherung einer großen Datenmenge, die in der Regel in der Forschung anfällt, kann durch den Einsatz von Data Provenance erheblich unterstützt werden.
Mit der Kombination aus dem CHASE -- einem universellen Werkzeug zur Transformation von Datenbanken oder Anfragen in Datenbanksystemen -- und Data Provenance kann eine minimale Teildatenbank eines ursprünglichen Forschungsdatensatzes berechnet werden, was eines der Hauptprobleme bei der Minimierung von Forschungsdaten ist.
Fragen wie (1) Woher (where) kommen die Daten? (2) Warum (why) dieses Ergebnis? und (3) Wie (how) wird das Ergebnis berechnet? können dann im Forschungsdatenmanagement beantwortet werden. Als Use Case wenden wir unsere Ergebnisse im Bereich Forschungsdatenmanagement und Data Provenance in einem Kooperationsprojekt der Universität Rostock und des Leibniz-Instituts für Ostseeforschung Warnemünde (IOW) an.
In der Data-Provenance-Grundlagenforschung beschäftigen wir uns insbesondere mit der Fragestellung, wie extensionale Antworten der Provenance-Anfragen how und why für eine vorgenommene Auswertung auf der Forschungsdatenbank berechnet werden können, ohne die vollständige Forschungsdatenbank zu kennen. Zu diesem Zweck wollen wir die Inverse der Auswertung automatisch berechnen, was nur in den wenigstens Fällen exakt möglich sein wird. Repräsentieren wir die Auswertung durch den CHASE-Prozess aus der relationalen Datenbank-Theorie, so können wir aber bestehende Forschungsergebnisse nutzen, die diverse abgeschwächte Inversen-Typen für bestimmte Auswertungsoperationen ermöglichen. In unserer eigenen Forschungsarbeit entwickeln wir das Portfolio dieser Inversentypen weiter. Gibt es zu einer komplexen Auswertung keine passende Inverse, so müssen wir bei der Auswertung Annotationen speichern, die sogenannte Provenance-Polynome darstellen. Die Provenance-Polynome abstrahieren den Auswertungsprozess, in dem datenverändernde Operationen wie Duplikateliminierung und Datenverknüpfungen durch Polynom-Operationen dargestellt werden.
Die Repräsentation der Auswertung durch den CHASE bietet zusätzlich den Vorteil, dass weitere Phasen des Forschungsdatenmanagements sich auf dieselbe Art und Weise darstellen lassen und somit nahtlos in die Technik integriert werden können: zu diesen Phasen gehören einfache Datentransformationen, Datenbereinigungen, Schema- und Daten-Evolution sowie Datenaustausch zwischen verschiedenen Forschungsdatenbanken. In einer ersten Phase des ProSA-Projekts integrieren wir Schema-und Daten-Evolution in den Data-Provenance-Prozess.