Experimentelle Lehrveranstaltung "Neueste Entwicklungen in der Informatik" (NEidI)

(WS, SS, ILV 3 SWS, 6 Leistungspunkte)

Aktuelles zur Veranstaltung im StudIP: KSWS bzw. NEidI

NEidI ist ein generisches Modul im Informatik-Master, das im Wechsel von verschiedenen Lehrstühlen gefüllt" wird. Die Veranstaltungsform ist "experimentelle Lehrveranstaltung", die Form ist also nicht vorgegeben. Wir werden bei DBIS in den NEidI-Veranstaltungen, die immer im Wintersemester stattfinden, einige Vorlesungsstunden, Literaturarbeit, Konzeption eines Systems, Seminarvortrag und Projekt (also Implementierung eines Software-Moduls) "mischen".  Ziel unserer NEidI-Veranstaltungen sind längerfristige Projekte in drei aktuellen Forschungsgebieten des Lehrstuhls:

  • HyDRA: In diesem Projekt wird ein System für die Verwaltung digitaler Dokumente entwickelt (Digitale Bibliothek). Die Besonderheit ist die starke Vernetzung der Dokumente, was im System durch Hypergraphen modelliert wird. Spezielles Ziel sind effiziente Suchverfahren nach Dokumenten und Teilstrukturen im Dokument-Graphen.
  • PArADISE: In diesem Projekt wird eine Big-Data-Analytics-Umgebung aufgebaut. Dabei werden wir die Parallelisierung der Analyse großer Datenmengen auf Clusterrechnern konzipieren und auch Datenschutzbestimmungen technisch umsetzen (Verhinderung "ungewollter" Auswertungen von Daten durch Datensparsamkeit).
  • METIS: In diesem Projekt beschäftigen wir uns mit Transformationen von Datenbankstrukturen, die bei der Modellierung, Evolution, Integration und Analyse von Datenbanken notwendig werden. Ein spezielles Teilziel ist das „Provenance Management“ bei wissenschaftlichen Experimenten, um von Analyseergebnissen „rückwärts“ die relevanten Originaldaten des Experiments ermitteln zu können.

NEidI in anderer Form

Die Instanz von NEidI wird speziell empfohlen für Master-Studenten mit der Vertiefung "Informationssysteme" oder dem Studienprofil "Informationssysteme" oder "Medieninformatik".

Wichtig für Studenten im Bachelor-Studiengang Informatik:
Die NEidI-Veranstaltungen sind in etwas abgemagerter Form auch als Projekt oder KSWS im Bachelor-Studium nutzbar: Als Projekt werden ausschließlich Teilsysteme konzipiert und implementiert, die Implementierung wird am Ende des Projektes in einem Projektbericht beschrieben und das System vorgestellt

Als KSWS verbleiben zusätzlich die Vorlesungsanteile und die Literaturanalyse von vorgegebener Literatur als Vorlage für die eigene Konzeption. Der Vortrag am Ende stellt im Wesentlichen Konzept und Implementierung des eigenen Systems vor. Die Konzeptarbeiten können auf Wunsch auch Ausgangspunkt für eine mögliche, folgende Bachelorarbeit sein.

Lern- und Qualifikationsziele

Fachlich Erkundung eines z.B. neuen, aktuell brisanten oder aus anderen Gründen nicht im Standardcurriculum verankerten Themas
Methodisch Fähigkeiten zur Erschließung eines Themas in einer weniger strukturierten Lernumgebung
Sozial Umgang mit experimentellen Formen einer Kombination von Lehrinhaltsvermittlung
Persönlich Vorbereitung auf lebenslanges Lernen

Prüfungsmodalitäten

Prüfungsleistung Referat/Präsentation (30 min)

Aktuelle Themen (Sommersemester 2023)

Implementation einer Selbstorganisierenden Karte für Textanalysen

Implementation einer Selbstorganisierenden Karte für Textanalysen

Ansprechpartner

  • Hannes Grunert

Typ

  • Komplexe Softwaresysteme
  • Projekt
  • Neueste Entwicklungen in der Informatik

Charakter

  • Literaturanalyse
  • Konzeption
  • Implementierung
  • Evaluation

Vorwissen

  • Vorlesung Künstliche Intelligenz (BSc.)
  • Vorlesung Data Science (BSc., optional)
  • Vorlesung Grundlagen des maschinellen Lernens (MSc., optional)
  • Vorlesung Artificial Neural Networks (MSc., optional)

Beschreibung

Die Somtxt UG ist eine Datenanalysefirma in Rostock, die sich seit 2014 auf die Verarbeitung und Mustererkennung in großen Textdatenbeständen spezialisiert hat. Wir arbeiten dazu mit Techniken der künstlichen Intelligenz und weiteren statistischen Verfahren. Unsere Mitarbeiter sind Techniker im Bereich Server- und Anwendungsentwicklung und Geisteswissenschaftler mit den Schwerpunkten Recherche, Analyse und Textproduktion. Wir verarbeiten im Auftrag unserer Kunden offene und frei im Internet zugängliche Daten und erstellen Modelle unter Verwendung künstlicher-neuronaler Netze zur Filterung und Segmentierung dieser Daten.

Die eigenentwickelte Recherche- und Analyseplattform "KALEVI" vertieft, erweitert und beschleunigt die analytische bzw. journalistische Arbeitsweise und ermöglicht u.a. teilautomatisierte, investigative Formate. Das geplante Projekt hat die Umsetzung einer Selbstorganisierenden Karte (self-organizing map – SOM), auch als Kohohnenkarte bekannte Form künstlicher neuronaler Netze in der Programmiersprache Python zum Ziel.

Das Projekt erfolgt in enger Zusammenarbeit mit der Somtxt UG, die neben entsprechenden Eingangsdatensätzen auch fachliche Unterstützung anbietet.

Teilaufgaben

  1. Einarbeitung in die theoretischen und algorithmischen Grundlagen der SOMs
  2. Analyse der von der Somtxt UG bereitgestellten Eingangsdaten und Erarbeiten einer entsprechenden Neuronenstruktur
  3. Implementierung der SOM als Python-Klasse in einem eigenständigen Modul
  4. Implementierung einer Schnittstelle zur Kommunikation mit der SOM
  5. Integration einer Visualisierung der SOM, vorzugsweise als PNG- und als SVG-Grafik

Technologien

  • Programmiersprache: Python
  • scikitLearn

Literatur und Links

  • Lämmel, Uwe, and Jürgen Cleve. Künstliche Intelligenz: Wissensverarbeitung–Neuronale Netze. Carl Hanser Verlag GmbH Co KG, 2020.
  • https://somtxt.de/

Weitere Literatur wird zu Semesterbeginn bekannt gegeben.

Merkmals-basierte Dokumentenklassifizierung, erweitert für die Kategorisierung von unvorhergesehenen Dokumenten

Merkmals-basierte Dokumentenklassifizierung, erweitert für die Kategorisierung von unvorhergesehenen Dokumenten

Ansprechpartner

  • Hannes Grunert

Typ

  • Komplexe Softwaresysteme
  • Projekt
  • Neueste Entwicklungen in der Informatik

Charakter

  • Konzeption
  • Prototypische Implementierung

Vorwissen

  • Vorlesung Künstliche Intelligenz (BSc.)
  • Vorlesung Data Science (BSc., optional)
  • Vorlesung Grundlagen des maschinellen Lernens (MSc., optional)
  • Vorlesung Artificial Neural Networks (MSc., optional)

Beschreibung

Perga entwickelt derzeit eine mobile App, um dem Nutzer bei der Verwaltung seiner persönlichen Dokumente zu helfen. Die Benutzer können ohne Schwierigkeiten Informationen über ihre Dokumente archivieren, darauf zugreifen und sie bearbeiten, wann und wo immer sie wollen. Um Dokumente zu Perga hinzuzufügen, kann der Benutzer seine Dokumente einscannen oder Dokumente aus einer anderen App importieren, z.B. aus einem E-Mail-Anhang.

Eine wichtige Funktion, die wir unseren Nutzern zur Verfügung stellen möchten, ist die automatische Kategorisierung von Dokumenten mithilfe von KI. Dadurch kann der Nutzer manuelle Arbeit vermeiden und idealerweise nur die von der App vorgeschlagenen Kategorien akzeptieren.

Es ist jedoch unrealistisch, einen Datensatz zu haben, der alle möglichen Kategorien enthält, da es eine hohe Anzahl an möglichen Dokumenten gibt. Daher verwenden wir die Merkmale, die von LayoutLM bereitgestellt werden, um unvorhergesehene Dokumente zu kategorisieren. Als "Merkmal" können wir die Werte aus der vorletzten Schicht des LayoutLM-Modells verwenden. Das Modell ist noch nicht endgültig festgelegt, aber es wäre etwas Ähnliches.

Das Modell basiert auf einem Transformator und kann Merkmale aus OCR und Bildern kombinieren. Wir verwenden den Datensatz RVL-CDIP mit 16 Klassen als Trainingsdaten. Wir können einen Klassenähnlichkeits-basierten (Similarity-based) Ansatz aus dem Zero-Shot-Learning verwenden, um die Kategorisierung durchzuführen, selbst bei unvorhergesehenen Kategorien.

Als ersten Ansatz verwenden wir nur einen Teil der verfügbaren Klassen und nutzen die Merkmale des Modells und des Zero-Shot-Learnings, um die anderen Klassen zu kategorisieren. Merkmale aus LayoutLM soll dann als eine Art von “Embedding” den Dokumenten dienen. Eine erfolgreiche “Embedding” würde bedeuten, dass das Modell in der Lage ist, eine neue Kategorie zu erkennen und unterscheiden.

Teilaufgaben

  1. Einarbeitung in das Gebiet und Literaturrecherche

  2. Erstes Training (mit vortrainiertem Model)

  3. Erstes Embedding zu generieren

  4. Bestimmung der notwendigen Metriken und Hyperparameter für den Embeddingprozess

  5. Iterative Verbesserung des Ergebnisses

  6. Evaluation

  7. Darstellung als t-SNE plot

  8. Dokumentation

Technologien

  • Programmiersprache: Python
  • PyTorch

Literatur und Links

  • Schopf, T., Braun, D., & Matthes, F. (2022). Evaluating Unsupervised Text Classification: Zero-shot and Similarity-based Approaches.

  • Pramanik, S., Mujumdar, S., & Patel, H. (2020). Towards a Multi-modal, Multi-task Learning based Pre-training Framework for Document Representation Learning.

  • Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, & Ming Zhou (2020).

  • LayoutLM: Pre-training of Text and Layout for Document Image Understanding. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery &Data Mining. ACM.

  • 4. Xian, Y., Lampert, C., Schiele, B., & Akata, Z.. (2017). Zero-Shot Learning – A Comprehensive Evaluation of the Good, the Bad and the Ugly.

  • https://perga.app

Weitere Literatur wird zu Semesterbeginn bekannt gegeben.