Komplexe Software-Systeme oder Projekt (KSWS, PROJ)

(SS, WS, ILV 3 SWS, 6 Leistungspunkte)

Aktuelles zur Veranstaltung im StudIP: KSWS bzw. NEidI

Die Veranstaltungen KSWS oder Projekt sind generische Module im Informatik-Bachelor, die im Wechsel von verschiedenen Lehrstühlen "gefüllt" werden. Wir werden bei DBIS in den KSWS oder Projekt-Veranstaltungen, die immer im Sommersemester stattfinden, einige Vorlesungsstunden (Projekt nur anteilig), Literaturarbeit (nur KSWS), Seminarvortrag und Projekt (also Implementierung eines Software-Moduls) "mischen".
Ziel unserer KSWS- und Projekt-Veranstaltungen sind längerfristige Projekte in drei aktuellen Forschungsgebieten des Lehrstuhls:

  • HyDRA: In diesem Projekt wird ein System für die Verwaltung digitaler Dokumente entwickelt (Digitale Bibliothek). Die Besonderheit ist die starke Vernetzung der Dokumente, was im System durch Hypergraphen modelliert wird. Spezielles Ziel sind effiziente Suchverfahren nach Dokumenten und Teilstrukturen im Dokument-Graphen.
  • PArADISE: In diesem Projekt wird eine Big-Data-Analytics-Umgebung aufgebaut. Dabei werden wir die Parallelisierung der Analyse großer Datenmengen auf Clusterrechnern konzipieren und auch Datenschutzbestimmungen technisch umsetzen (Verhinderung "ungewollter" Auswertungen von Daten durch Datensparsamkeit).
  • METIS: In diesem Projekt beschäftigen wir uns mit Transformationen von Datenbankstrukturen, die bei der Modellierung, Evolution, Integration und Analyse von Datenbanken notwendig werden. Ein spezielles Teilziel ist das „Provenance Management“ bei wissenschaftlichen Experimenten, um von Analyseergebnissen „rückwärts“ die relevanten Originaldaten des Experiments ermitteln zu können.

Die Instanz von KSWS/Projekt wird speziell empfohlen für Bachelor-Studenten mit der Vertiefung "Informationssysteme" oder dem Studienprofil "Informationssysteme" oder "Medieninformatik".


Wichtig für Studenten im Master-Studiengang Informatik:
Die Veranstaltung KSWS / Projekt ist im auch als experimentelle Lehrveranstaltung "Neueste Entwicklungen in der Informatik" (NEidI) nutzbar. Wir werden bei DBIS in NEidI einige Vorlesungsstunden, Literaturarbeit, Konzeption eines Systems, Seminarvortrag und Projekt (also Implementierung eines Software-Moduls) "mischen".  

Aktuelle Themen (Sommersemester 2023)

Implementation einer Selbstorganisierenden Karte für Textanalysen

Implementation einer Selbstorganisierenden Karte für Textanalysen

Ansprechpartner

  • Hannes Grunert

Typ

  • Komplexe Softwaresysteme
  • Projekt
  • Neueste Entwicklungen in der Informatik

Charakter

  • Literaturanalyse
  • Konzeption
  • Implementierung
  • Evaluation

Vorwissen

  • Vorlesung Künstliche Intelligenz (BSc.)
  • Vorlesung Data Science (BSc., optional)
  • Vorlesung Grundlagen des maschinellen Lernens (MSc., optional)
  • Vorlesung Artificial Neural Networks (MSc., optional)

Beschreibung

Die Somtxt UG ist eine Datenanalysefirma in Rostock, die sich seit 2014 auf die Verarbeitung und Mustererkennung in großen Textdatenbeständen spezialisiert hat. Wir arbeiten dazu mit Techniken der künstlichen Intelligenz und weiteren statistischen Verfahren. Unsere Mitarbeiter sind Techniker im Bereich Server- und Anwendungsentwicklung und Geisteswissenschaftler mit den Schwerpunkten Recherche, Analyse und Textproduktion. Wir verarbeiten im Auftrag unserer Kunden offene und frei im Internet zugängliche Daten und erstellen Modelle unter Verwendung künstlicher-neuronaler Netze zur Filterung und Segmentierung dieser Daten.

Die eigenentwickelte Recherche- und Analyseplattform "KALEVI" vertieft, erweitert und beschleunigt die analytische bzw. journalistische Arbeitsweise und ermöglicht u.a. teilautomatisierte, investigative Formate. Das geplante Projekt hat die Umsetzung einer Selbstorganisierenden Karte (self-organizing map – SOM), auch als Kohohnenkarte bekannte Form künstlicher neuronaler Netze in der Programmiersprache Python zum Ziel.

Das Projekt erfolgt in enger Zusammenarbeit mit der Somtxt UG, die neben entsprechenden Eingangsdatensätzen auch fachliche Unterstützung anbietet.

Teilaufgaben

  1. Einarbeitung in die theoretischen und algorithmischen Grundlagen der SOMs
  2. Analyse der von der Somtxt UG bereitgestellten Eingangsdaten und Erarbeiten einer entsprechenden Neuronenstruktur
  3. Implementierung der SOM als Python-Klasse in einem eigenständigen Modul
  4. Implementierung einer Schnittstelle zur Kommunikation mit der SOM
  5. Integration einer Visualisierung der SOM, vorzugsweise als PNG- und als SVG-Grafik

Technologien

  • Programmiersprache: Python
  • scikitLearn

Literatur und Links

  • Lämmel, Uwe, and Jürgen Cleve. Künstliche Intelligenz: Wissensverarbeitung–Neuronale Netze. Carl Hanser Verlag GmbH Co KG, 2020.
  • https://somtxt.de/

Weitere Literatur wird zu Semesterbeginn bekannt gegeben.

Merkmals-basierte Dokumentenklassifizierung, erweitert für die Kategorisierung von unvorhergesehenen Dokumenten

Merkmals-basierte Dokumentenklassifizierung, erweitert für die Kategorisierung von unvorhergesehenen Dokumenten

Ansprechpartner

  • Hannes Grunert

Typ

  • Komplexe Softwaresysteme
  • Projekt
  • Neueste Entwicklungen in der Informatik

Charakter

  • Konzeption
  • Prototypische Implementierung

Vorwissen

  • Vorlesung Künstliche Intelligenz (BSc.)
  • Vorlesung Data Science (BSc., optional)
  • Vorlesung Grundlagen des maschinellen Lernens (MSc., optional)
  • Vorlesung Artificial Neural Networks (MSc., optional)

Beschreibung

Perga entwickelt derzeit eine mobile App, um dem Nutzer bei der Verwaltung seiner persönlichen Dokumente zu helfen. Die Benutzer können ohne Schwierigkeiten Informationen über ihre Dokumente archivieren, darauf zugreifen und sie bearbeiten, wann und wo immer sie wollen. Um Dokumente zu Perga hinzuzufügen, kann der Benutzer seine Dokumente einscannen oder Dokumente aus einer anderen App importieren, z.B. aus einem E-Mail-Anhang.

Eine wichtige Funktion, die wir unseren Nutzern zur Verfügung stellen möchten, ist die automatische Kategorisierung von Dokumenten mithilfe von KI. Dadurch kann der Nutzer manuelle Arbeit vermeiden und idealerweise nur die von der App vorgeschlagenen Kategorien akzeptieren.

Es ist jedoch unrealistisch, einen Datensatz zu haben, der alle möglichen Kategorien enthält, da es eine hohe Anzahl an möglichen Dokumenten gibt. Daher verwenden wir die Merkmale, die von LayoutLM bereitgestellt werden, um unvorhergesehene Dokumente zu kategorisieren. Als "Merkmal" können wir die Werte aus der vorletzten Schicht des LayoutLM-Modells verwenden. Das Modell ist noch nicht endgültig festgelegt, aber es wäre etwas Ähnliches.

Das Modell basiert auf einem Transformator und kann Merkmale aus OCR und Bildern kombinieren. Wir verwenden den Datensatz RVL-CDIP mit 16 Klassen als Trainingsdaten. Wir können einen Klassenähnlichkeits-basierten (Similarity-based) Ansatz aus dem Zero-Shot-Learning verwenden, um die Kategorisierung durchzuführen, selbst bei unvorhergesehenen Kategorien.

Als ersten Ansatz verwenden wir nur einen Teil der verfügbaren Klassen und nutzen die Merkmale des Modells und des Zero-Shot-Learnings, um die anderen Klassen zu kategorisieren. Merkmale aus LayoutLM soll dann als eine Art von “Embedding” den Dokumenten dienen. Eine erfolgreiche “Embedding” würde bedeuten, dass das Modell in der Lage ist, eine neue Kategorie zu erkennen und unterscheiden.

Teilaufgaben

  1. Einarbeitung in das Gebiet und Literaturrecherche

  2. Erstes Training (mit vortrainiertem Model)

  3. Erstes Embedding zu generieren

  4. Bestimmung der notwendigen Metriken und Hyperparameter für den Embeddingprozess

  5. Iterative Verbesserung des Ergebnisses

  6. Evaluation

  7. Darstellung als t-SNE plot

  8. Dokumentation

Technologien

  • Programmiersprache: Python
  • PyTorch

Literatur und Links

  • Schopf, T., Braun, D., & Matthes, F. (2022). Evaluating Unsupervised Text Classification: Zero-shot and Similarity-based Approaches.

  • Pramanik, S., Mujumdar, S., & Patel, H. (2020). Towards a Multi-modal, Multi-task Learning based Pre-training Framework for Document Representation Learning.

  • Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, & Ming Zhou (2020).

  • LayoutLM: Pre-training of Text and Layout for Document Image Understanding. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery &Data Mining. ACM.

  • 4. Xian, Y., Lampert, C., Schiele, B., & Akata, Z.. (2017). Zero-Shot Learning – A Comprehensive Evaluation of the Good, the Bad and the Ugly.

  • https://perga.app

Weitere Literatur wird zu Semesterbeginn bekannt gegeben.