Layouterkennung, Extraktion und Transformation handgeschriebener Zeiterfassungen

als Masterarbeit (insbesondere Wirtschaftsinformatik)

Betreuer / Ansprechpartner

  • Kurt Sandkuhl (Lehrstuhl Wirtschaftsinformatik & Zentrum für Künstliche Intelligenz in MV)
  • Hannes Grunert (Lehrstuhl Datenbank- und Informationssysteme & Zentrum für Künstliche Intelligenz in MV)

Charakter

  • Vergleichende Analyse

  • Konzeption

  • Prototypische Implementierung

Vorkenntnisse

  • Pflicht: Vorlesung Data Science oder Data Warehouses
  • Optional: Digitale Bibliotheken und Multimedia-Information-Retrieval

Beschreibung

Bei der Erfassung von Leistungen kommen häufig vorgefertigte Formulare zum Einsatz, die von den Mitarbeitenden händisch während und nach getaner Arbeit ausgefüllt. Neben der erbrachten Leistung und deren Umfang werden zudem die Unterschriften des Leistungserbringers und des Leistungsberechtigten erfasst. Die Leistungsnachweise werden am Monats- oder Quartalsende gebündelt abgegeben und anschließend ausgewertet, um beispielsweise die Gesamtkosten der erbrachten Leistungen zu ermitteln.

In einigen wenigen Fällen kann es dabei zu Betrugsfällen seitens des Leistungserbringers kommen, indem beispielsweise nicht erbrachte Leistungen abgerechnet werden. Eine automatisierte Überprüfung der Daten auf Anomalien und weitere Auffälligkeiten wäre wünschenswert, scheitert aktuell u.a. aber an Medienbrüchen.

Im Rahmen dieser Abschlussarbeit soll einerseits untersucht werden, wie durch aktuelle Softwarelösungen bestehende Digitalisierungsprozesse unterstützt und erweitert werden können, aber auf der anderen Seite auch, wie hoch der Aufwand für die Entwicklung maßgeschneiderter (KI)-Lösungen ausfällt. Der Fokus liegt hierbei auf der Einbindung verschiedener Layouts der Dokumente, der Extraktion der handschriftlichen Daten und der Überführung der Daten in eine relationale Darstellung. 

Arbeitsschritte

  • Einarbeitung in das Gebiet / Literaturanalyse / Stand der Technik
    • Layoutanalyse
    • Handschriftenerkennung
    • Datentransformation
  • Konzeption
    • Extraktions- und Transformationsprozess
      • Ableitung von Kennzahlen aus Texten
      • Transformation in ein gegebenes Zielformat
  • Implementierung des Konzepts
  • Test und Validierung des Verfahrens

Technologien

  • Programmiersprachen nach Wahl

Literatur

  • Binmakhashen, G. M., & Mahmoud, S. A. (2019). Document layout analysis: a comprehensive survey. ACM Computing Surveys (CSUR), 52(6), 1-36.
  • Liang, X., Cheddad, A., & Hall, J. (2021). Comparative study of layout analysis of tabulated historical documents. Big Data Research, 24, 100195.
  • Tan, Y. F., Connie, T., Goh, M. K. O., & Teoh, A. B. J. (2022). A pipeline approach to context-aware handwritten text recognition. Applied Sciences, 12(4), 1870.

    Weitere Literatur wird zu Beginn der Arbeit bekannt gegeben.