Constraint-getriebene Generierung von medizinischen Testdaten

als Masterarbeit

Betreuer / Ansprechpartner

Charakter

  • Konzeption

  • Prototypische Implementierung

Vorkenntnisse

  • Pflicht: Vorlesung Data Science oder Vorlesung Data Warehouses

Beschreibung

Zur Stärkung der medizinischen Forschung sowie zur Verbesserung der Patientenversorgung in Deutschland, werden z.B. in Krankenhäusern medizinische Daten gesammelt und Forschenden zur Verfügung gestellt. Die zu sammelnden Daten sind im Kerndatensatz der MII zusammengefasst und basieren auf dem internationalen IT- und Terminologie-Standard Fast Healthcare Interoperability Resources (HL7 FHIR), welche für die nationale und internationale Nutzung der Daten Vorrausetzung ist. Das Sammeln der medizinischen Daten erfolgt über Datenintegrationszentren, welche vom Netzwerk Universitätsmedizin (NUM) und der Medizininformatikinitiative (MII) gefördert werden. An der Universitätsmedizin Rostock (UMR) erfüllt diese Aufgabe das im Aufbau befindliche medizinische Datenintegrationszentrum (MeDIZ.Rostock). 

Die Freigabe von definierten Datensätzen kann von Forschenden über das Forschungsdatenportal für Gesundheit (FDPG) beantragt werden. Bei positiver Bewilligung werden die Daten in den Datenintegrationszentren aus Datenbanken oder FHIR-Servern ausgelesen und an die Forschenden übergeben. Ein anderer Weg ist die Datenextraktion mittels Skripten, z.B. für verteilte Analysen. Zum Testen dieser Skripte in einer sicheren Umgebung sollten Testdatensätze auf einem abgesicherten Server zur Verfügung stehen. Diese Testdatensätze müssen jedoch zuerst abhängig von den im Skript definierten Anforderungen erzeugt werden.

Im Rahmen dieser Abschlussarbeit soll untersucht werden, sich die Anforderungen an die Datengenerierung (Einhaltung Schema, Datenverteilung, Anonymisierung) für personenbezogene und medizinische Daten formalisieren lassen. Die Implementierung und Evaluierung erfolgen anhand einer webbasierten Anwendung

Arbeitsschritte

  • Einarbeitung in das Gebiet / Literaturanalyse / Stand der Technik
    • HL7 FHIR
    • Testdatengenerierung
    • Anonymisierung von Daten
  • Konzeption
    • Datenpipeline
    • Formalisierung von Anonymisierungskriterien für die Datengenerierung
    • Generierung von Daten unter Einhaltung
      • des FHIR-Schemas
      • der formalisierten Anonymisierungskriterien
  • Implementierung des Konzepts als webbasierte Anwendung
  • Test und Validierung des Verfahrens

Technologien

  • Programmiersprachen nach Wahl

Literatur

  • Ulrich, H., Kock, A. K., Duhm-Harbeck, P., Habermann, J. K., & Ingenerf, J. (2016). Metadata repository for improved data sharing and reuse based on HL7 FHIR. In Exploring Complexity in Health: An Interdisciplinary Systems Approach (pp. 162-166). Ios Press.
  • Raso, E., Loreti, P., Ravaziol, M., & Bracciale, L. (2024). Anonymisation and pseudonymisation of FHIR resources for secondary use of healthcare data. IEEE Access.
  • Yang, W., & Wiese, L. (2022). Privacy-preserving Anonymization of FHIR healthcare data, LWDA’24: Lernen, Wissen, Daten, Analysen. October 23–25, 2024, Würzburg, Germany
  • Livieris, I. E., Alimpertis, N., Domalis, G., & Tsakalidis, D. (2024, June). An evaluation framework for synthetic data generation models. In IFIP International Conference on Artificial Intelligence Applications and Innovations (pp. 320-335). Cham: Springer Nature Switzerland.

 Weitere Literatur wird zu Beginn der Arbeit bekannt gegeben.