Parallele Anonymisierung von großen Datenbeständen

Betreuer / Ansprechpartner

  • Hannes Grunert
  • Andreas Heuer

    Charakter

    • Konzeption
    • Prototypische Implementierung

    Vorkenntnisse

    • Datenbanken I
    • Datenbankenanwendungsprogrammierung
    • (Datenbanken III)

    Beschreibung

    In smarten Umgebungen zeichnen verschiedene Sensoren die Aktivitäten der Nutzer auf. Auf Basis dieser Daten werden die Intentionen der Nutzer erkannt, wodurch smarte Systeme, wie das Smart Appliance Lab an der Universität Rostock, eigenständig Handlungen ausführen kann.

    Die dabei aufgezeichneten Daten haben dabei meist einen direkten oder zumindest indirekten Personenbezug. Durch das Recht auf informationelle Selbstbestimmung dürfen diese Daten nur für den Verwendungszweck benutzt werden für den der Benutzer zuvor zugestimmt hat. Durch die Nutzung von Sichtkonzepten, feingranularen Zugriffsrechten und der Anwendung von Datenschutz-Algorithmen kann der Zugang zu den Daten beschränkt werden (Privacy by Design).

    Daten liegen häufig verteilt auf mehreren Datenquellen vor. Sollen Informationen integriert werden, so werden sie häufig über einen natürlichen Verbund (unterschiedliche Struktur) oder mengenwertige Vereinigungen (gleiche Struktur) miteinander verknüpft. In der Literatur existieren verschiedene Verfahren um die Anonymität der verknüpften Daten bereits vor der Integration auf einem zentralen Server zu gewährleisten.

    Im Rahmen dieser Arbeit soll untersucht werden, wie sich diese Verfahren adaptieren lassen, um die Anonymisierung auf einem Großgerät zu parallelisieren. Es soll dabei getestet werden, wie Daten bereits im Vorfeld auf verschiedene Knoten verteilt werden können, ohne das bereits eine Anonymisierungsstrategie ausgewählt wurde. Zudem sollen insbesondere die Optimierungsmöglichkeiten des Datenbanksystems ausgeschöpft werden.

    Arbeitsschritte

    • Einarbeitung in das Gebiet:
      • Grundlagen des Datenschutzes
      • Anonymisierung
      • Verteilte Datenverarbeitung
    • Literaturrecherche:
      • verteilte Anonymisierungsverfahren
      • Optimierungsmöglichkeiten
        • Allgemein
        • PostgreSQL
        • Postgres-XL
    • Konzeption
      • Auswahl eines geeigneten verteilten Anonymisierungsverfahrens
      • Anpassung des Verfahrens an die Parallelisierung
      • Allgemeine Optimierung des Verfahrens
    • Prototypische Implementierung
      • Implementierung und Modifizierung des gewählten Verfahrens
      • Optimierung für Postgres-XL
    • Entwicklung eines Testszenarios
    • Test des Verfahrens in der bestehenden Systemumgebung

    Technologien

    • Java
    • SQL

    Literatur

    • John, Bodo (2016) Vergleichende Analyse von Datenschutzalgorithmen und -konzepten. Bachelorarbeit, Universität Rostock.
    • Grunert, Hannes and Heuer, Andreas (2016) Datenschutz im PArADISE. Datenbank-Spektrum, 16 (2). pp. 107-117. ISSN 1618-2162
    • Jan Hendrik Nielsen, Daniel Janusz, Jochen Taeschner, Johann-Christoph Freytag (2015): D2Pt: Privacy-Aware Multiparty Data Publication. BTW 2015: 105-124
    • weitere Literatur wird zu Beginn der Arbeit bekanntgegeben