Berechnung von Quasi-Identifikatoren nach Verbundoperationen

Student

  • Florian Rose

Betreuer / Ansprechpartner

  • Hannes Grunert
  • Andreas Heuer

    Charakter

    • Konzeption
    • prototypische Implementierung

    Vorkenntnisse

    • Datenbanken I
    • Imperative Programmierung
    • Datenbankanwendungsprogrammierung
    • Bei Masterarbeit: Datenbanken II

    Beschreibung

    In smarten Umgebungen zeichnen verschiedene Sensoren die Aktivitäten der Nutzer auf. Auf Basis dieser Daten werden die Intentionen der Nutzer erkannt, wodurch smarte Systeme, wie das Smart Appliance Lab an der Universität Rostock, eigenständig Handlungen ausführen kann.

    Die dabei aufgezeichneten Daten haben dabei meist einen direkten oder zumindest indirekten Personenbezug. Durch das Recht auf informationelle Selbstbestimmung dürfen diese Daten nur für den Verwendungszweck benutzt werden für den der Benutzer zuvor zugestimmt hat. Durch die Nutzung von Sichtkonzepten, feingranularen Zugriffsrechten und der Anwendung von Datenschutz-Algorithmen kann der Zugang zu den Daten beschränkt werden (Privacy by Design).

    In der Praxis werden hierfür häufig die Ergebnismengen einer Anfrage nachträglich anonymisiert. Viele Verfahren, die auf Maßen wie k-Anonymität, l-Diversity und t-Closeness basieren, verwenden Attribute aus Quasi-Identifikatoren, um die Anonymität sicherzustellen.

    Durch Verbundoperatoren werden zwei (oder mehrere) Relationen zu einer neuen Relation vereinigt. Durch die Kombination der Relationen können neue Quasi-Identifikatoren entstehen. Durch die Vorkenntnisse aus der Berechnung der Quasi-Identifikatoren vor dem Verbund können dabei bestimmte Attributkombinationen im Vorfeld ausgeschlossen werden.

    Im Rahmen dieser Bachelorarbeit soll untersucht werden, wie die Berechnung von Quasi-Identifikatoren

    1. effizient NACH dem Verbund berechnet werden kann
    2. effizient WÄHREND dem Verbund berechnet werden kann (nur Masterarbeit)

    Die praktische Anwendung soll anhand von verschiedenartigen Datensätzen gezeigt werden. Einerseits können „traditionelle“ Datenbestände, wie Personendatenbanken untersucht werden, anderseits Aufzeichnungen von Stromdaten. Die Verteilung von Quasi-Identifikatoren unterscheidet sich in diesen Fällen extrem voneinander.

    Arbeitsschritte

    • Einarbeitung in das Gebiet:
      • Grundlagen des Datenschutzes
      • Quasi-Identifikatoren
      • Verbundimplementierungen (bei Masterarbeit)
    • Literaturrecherche:
      • Berechnung von Quasi-Identifikatoren
      • Schlüsselerkennung
      • Optimierung von Verbünden (bei Masterarbeit)
    • Konzeption
      • Identifikation von Kandidatenmengen und ergebnislosen Mengen
      • Entwicklung eines Verfahrens zur erneuten Berechnung von QI
      • Integration des Verfahrens in den Verbund (bei Masterarbeit)
    • Prototypische Implementierung
      • Optimierung des bestehenden Algorithmus
      • Erweiterung auf durch Verbundoperationen erzeugte Relationen
      • Integration in Verbundimplementierungen (bei Masterarbeit)
    • Entwicklung eines Testszenarios
    • Test des Verfahrens in der bestehenden Systemumgebung

    Technologien

    • Java
    • JDBC
    • SQL (verschiedene DBMS)

    Literatur

    • Hannes Grunert, Andreas Heuer: Big Data und der Fluch der Dimensionalität: Die effiziente Suche nach Quasi-Identifikatoren in hochdimensionalen Daten. Grundlagen von Datenbanken 2014: 29-34
    • Hannes Grunert, Andreas Heuer: Datenschutz im PArADISE. Datenbank-Spektrum 16(2): 107-117 (2016)
    • Dalenius, Tore. "Finding a needle in a haystack or identifying anonymous census records." Journal of official statistics 2.3 (1986): 329.
    • Weitere Literatur wird zu Beginn der Arbeit bekanntgegeben