Neueste Entwicklungen in der Informatik - Lehrstuhl für Datenbank- und Informationssysteme

Experimentelle Lehrveranstaltung "Neueste Entwicklungen in der Informatik" (NEidI)

(WS, SS, ILV 3 SWS, 6 Leistungspunkte)

Aktuelles zur Veranstaltung im StudIP: KSWS bzw. NEidI

NEidI ist ein generisches Modul im Informatik-Master, das im Wechsel von verschiedenen Lehrstühlen gefüllt" wird. Die Veranstaltungsform ist "experimentelle Lehrveranstaltung", die Form ist also nicht vorgegeben. Wir werden bei DBIS in den NEidI-Veranstaltungen, die immer im Wintersemester stattfinden, einige Vorlesungsstunden, Literaturarbeit, Konzeption eines Systems, Seminarvortrag und Projekt (also Implementierung eines Software-Moduls) "mischen". Ziel unserer NEidI-Veranstaltungen sind längerfristige Projekte in drei aktuellen Forschungsgebieten des Lehrstuhls:

HyDRA: In diesem Projekt wird ein System für die Verwaltung digitaler Dokumente entwickelt (Digitale Bibliothek). Die Besonderheit ist die starke Vernetzung der Dokumente, was im System durch Hypergraphen modelliert wird. Spezielles Ziel sind effiziente Suchverfahren nach Dokumenten und Teilstrukturen im Dokument-Graphen.
PArADISE: In diesem Projekt wird eine Big-Data-Analytics-Umgebung aufgebaut. Dabei werden wir die Parallelisierung der Analyse großer Datenmengen auf Clusterrechnern konzipieren und auch Datenschutzbestimmungen technisch umsetzen (Verhinderung "ungewollter" Auswertungen von Daten durch Datensparsamkeit).
METIS: In diesem Projekt beschäftigen wir uns mit Transformationen von Datenbankstrukturen, die bei der Modellierung, Evolution, Integration und Analyse von Datenbanken notwendig werden. Ein spezielles Teilziel ist das „Provenance Management“ bei wissenschaftlichen Experimenten, um von Analyseergebnissen „rückwärts“ die relevanten Originaldaten des Experiments ermitteln zu können.

NEidI in anderer Form

Die Instanz von NEidI wird speziell empfohlen für Master-Studenten mit der Vertiefung "Informationssysteme" oder dem Studienprofil "Informationssysteme" oder "Medieninformatik".

Wichtig für Studenten im Bachelor-Studiengang Informatik:
Die NEidI-Veranstaltungen sind in etwas abgemagerter Form auch als Projekt oder KSWS im Bachelor-Studium nutzbar: Als Projekt werden ausschließlich Teilsysteme konzipiert und implementiert, die Implementierung wird am Ende des Projektes in einem Projektbericht beschrieben und das System vorgestellt

Als KSWS verbleiben zusätzlich die Vorlesungsanteile und die Literaturanalyse von vorgegebener Literatur als Vorlage für die eigene Konzeption. Der Vortrag am Ende stellt im Wesentlichen Konzept und Implementierung des eigenen Systems vor. Die Konzeptarbeiten können auf Wunsch auch Ausgangspunkt für eine mögliche, folgende Bachelorarbeit sein.

Lern- und Qualifikationsziele

Fachlich	Erkundung eines z.B. neuen, aktuell brisanten oder aus anderen Gründen nicht im Standardcurriculum verankerten Themas
Methodisch	Fähigkeiten zur Erschließung eines Themas in einer weniger strukturierten Lernumgebung
Sozial	Umgang mit experimentellen Formen einer Kombination von Lehrinhaltsvermittlung
Persönlich	Vorbereitung auf lebenslanges Lernen

Prüfungsmodalitäten

Prüfungsleistung	Referat/Präsentation (30 min)

Aktuelle Themen (Sommersemester 2023)

Implementation einer Selbstorganisierenden Karte für Textanalysen

Ansprechpartner

Hannes Grunert

Typ

Komplexe Softwaresysteme
Projekt
Neueste Entwicklungen in der Informatik

Charakter

Literaturanalyse
Konzeption
Implementierung
Evaluation

Vorwissen

Vorlesung Künstliche Intelligenz (BSc.)
Vorlesung Data Science (BSc., optional)
Vorlesung Grundlagen des maschinellen Lernens (MSc., optional)
Vorlesung Artificial Neural Networks (MSc., optional)

Beschreibung

Die Somtxt UG ist eine Datenanalysefirma in Rostock, die sich seit 2014 auf die Verarbeitung und Mustererkennung in großen Textdatenbeständen spezialisiert hat. Wir arbeiten dazu mit Techniken der künstlichen Intelligenz und weiteren statistischen Verfahren. Unsere Mitarbeiter sind Techniker im Bereich Server- und Anwendungsentwicklung und Geisteswissenschaftler mit den Schwerpunkten Recherche, Analyse und Textproduktion. Wir verarbeiten im Auftrag unserer Kunden offene und frei im Internet zugängliche Daten und erstellen Modelle unter Verwendung künstlicher-neuronaler Netze zur Filterung und Segmentierung dieser Daten.

Die eigenentwickelte Recherche- und Analyseplattform "KALEVI" vertieft, erweitert und beschleunigt die analytische bzw. journalistische Arbeitsweise und ermöglicht u.a. teilautomatisierte, investigative Formate. Das geplante Projekt hat die Umsetzung einer Selbstorganisierenden Karte (self-organizing map – SOM), auch als Kohohnenkarte bekannte Form künstlicher neuronaler Netze in der Programmiersprache Python zum Ziel.

Das Projekt erfolgt in enger Zusammenarbeit mit der Somtxt UG, die neben entsprechenden Eingangsdatensätzen auch fachliche Unterstützung anbietet.

Teilaufgaben

Einarbeitung in die theoretischen und algorithmischen Grundlagen der SOMs
Analyse der von der Somtxt UG bereitgestellten Eingangsdaten und Erarbeiten einer entsprechenden Neuronenstruktur
Implementierung der SOM als Python-Klasse in einem eigenständigen Modul
Implementierung einer Schnittstelle zur Kommunikation mit der SOM
Integration einer Visualisierung der SOM, vorzugsweise als PNG- und als SVG-Grafik

Technologien

Programmiersprache: Python
scikitLearn

Literatur und Links

Lämmel, Uwe, and Jürgen Cleve. Künstliche Intelligenz: Wissensverarbeitung–Neuronale Netze. Carl Hanser Verlag GmbH Co KG, 2020.
https://somtxt.de/

Weitere Literatur wird zu Semesterbeginn bekannt gegeben.

Merkmals-basierte Dokumentenklassifizierung, erweitert für die Kategorisierung von unvorhergesehenen Dokumenten

Ansprechpartner

Hannes Grunert

Typ

Komplexe Softwaresysteme
Projekt
Neueste Entwicklungen in der Informatik

Charakter

Konzeption
Prototypische Implementierung

Vorwissen

Vorlesung Künstliche Intelligenz (BSc.)
Vorlesung Data Science (BSc., optional)
Vorlesung Grundlagen des maschinellen Lernens (MSc., optional)
Vorlesung Artificial Neural Networks (MSc., optional)

Beschreibung

Perga entwickelt derzeit eine mobile App, um dem Nutzer bei der Verwaltung seiner persönlichen Dokumente zu helfen. Die Benutzer können ohne Schwierigkeiten Informationen über ihre Dokumente archivieren, darauf zugreifen und sie bearbeiten, wann und wo immer sie wollen. Um Dokumente zu Perga hinzuzufügen, kann der Benutzer seine Dokumente einscannen oder Dokumente aus einer anderen App importieren, z.B. aus einem E-Mail-Anhang.

Eine wichtige Funktion, die wir unseren Nutzern zur Verfügung stellen möchten, ist die automatische Kategorisierung von Dokumenten mithilfe von KI. Dadurch kann der Nutzer manuelle Arbeit vermeiden und idealerweise nur die von der App vorgeschlagenen Kategorien akzeptieren.

Es ist jedoch unrealistisch, einen Datensatz zu haben, der alle möglichen Kategorien enthält, da es eine hohe Anzahl an möglichen Dokumenten gibt. Daher verwenden wir die Merkmale, die von LayoutLM bereitgestellt werden, um unvorhergesehene Dokumente zu kategorisieren. Als "Merkmal" können wir die Werte aus der vorletzten Schicht des LayoutLM-Modells verwenden. Das Modell ist noch nicht endgültig festgelegt, aber es wäre etwas Ähnliches.

Das Modell basiert auf einem Transformator und kann Merkmale aus OCR und Bildern kombinieren. Wir verwenden den Datensatz RVL-CDIP mit 16 Klassen als Trainingsdaten. Wir können einen Klassenähnlichkeits-basierten (Similarity-based) Ansatz aus dem Zero-Shot-Learning verwenden, um die Kategorisierung durchzuführen, selbst bei unvorhergesehenen Kategorien.

Als ersten Ansatz verwenden wir nur einen Teil der verfügbaren Klassen und nutzen die Merkmale des Modells und des Zero-Shot-Learnings, um die anderen Klassen zu kategorisieren. Merkmale aus LayoutLM soll dann als eine Art von “Embedding” den Dokumenten dienen. Eine erfolgreiche “Embedding” würde bedeuten, dass das Modell in der Lage ist, eine neue Kategorie zu erkennen und unterscheiden.

Teilaufgaben

Einarbeitung in das Gebiet und Literaturrecherche
Erstes Training (mit vortrainiertem Model)
Erstes Embedding zu generieren
Bestimmung der notwendigen Metriken und Hyperparameter für den Embeddingprozess
Iterative Verbesserung des Ergebnisses
Evaluation
Darstellung als t-SNE plot
Dokumentation

Technologien

Programmiersprache: Python
PyTorch

Literatur und Links

Schopf, T., Braun, D., & Matthes, F. (2022). Evaluating Unsupervised Text Classification: Zero-shot and Similarity-based Approaches.
Pramanik, S., Mujumdar, S., & Patel, H. (2020). Towards a Multi-modal, Multi-task Learning based Pre-training Framework for Document Representation Learning.
Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, & Ming Zhou (2020).
LayoutLM: Pre-training of Text and Layout for Document Image Understanding. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery &Data Mining. ACM.
4. Xian, Y., Lampert, C., Schiele, B., & Akata, Z.. (2017). Zero-Shot Learning – A Comprehensive Evaluation of the Good, the Bad and the Ugly.
https://perga.app

Weitere Literatur wird zu Semesterbeginn bekannt gegeben.

Einrichtungen

Plattformen

Schnellzugriff