Crowd sourcing in Digitalen Archiven

Betreuer

  • Holger Meyer

Charakter der Arbeit

  • Erarbeitung State-of-the-Art

  • Konzeption

  • prototypische Implementierung

Vorkenntnisse

  • Datenbanken
  • PostgreSQL
  • Java

Beschreibung

Die Deskribierung digitaler Archivbestände ist immer noch zu ein über weite Strecken nur wenig automatisierbar.  Das liegt zum einen an der Kombination von Segmentierung, Handschriftenerkennung und der Verwendung speziellen Vokabulars und von Abkürzungen, die es immer noch unmöglich machen Inhalte von handschriftlichen Zetteln zu transkribieren.  Dies trifft in besonderem Masse auf die Zettelsammlung des Wossidlo-Nachlasses zu.  Die Vernetzung mit Personen, Orten, Zeiten und Themen ist im wesentlich manuell erfolgt und längst nicht abgeschlossen.  Diese manuellen Deskribierungsprozesse sind arbeitsintensiv, aufwendig und nicht frei von Fehlern.

Im Rahmen der Arbeit soll untersucht werden, inwieweit Crowd sourcing-Techniken für diese Aufgaben einsetzbar sind.  Neben der Auswahl einer geeigneten Plattform ist die Problemaufbereitung und Datenbereitstellung ebenso wie die Überwachung und Fehlererkennung und -vermeidung sowie die Sicherstellung der Datenqualität eine Herausforderung.

Ausgewählte Techniken und Verfahren sind am Beispiel des Flurnamenarchives als Bestandteil von WossiDiA einzusetzen.  Dabei sind Ortsbezeichnungen aus Flurnamenverzeichnissen über zum Teil manuell erstellte Karten mit raumbezogenen Informationen zu vernetzen.

Ein Lösungsansatz ist am Beispiel des Wossidlo-Archivs und für des WossiDiA-Systems zu entwickeln und umzusetzen. Dieses System benutzt semi-strukturierte Daten (XML) und Hypergraphstrukturen für komplexe Vernetzung der Inhalte.  Die Zettel des Archivs wurden bereits auf 35mm-Film gesichert, jedoch fehlen sämtlich digitalen Suchstrukturen, die Ergebnisse der Deskribierung und ein Großteil der Metadaten.

Arbeitsschritte

  • Recherche, Aufbereitung und Klassifikation existierender Crowd-Source-basierter Deskribierungstechniken
  • Erstellung eines Deskribierungskonzeptes am Beispiel des Flurnamenarchives unter Nutzung Cloud-basierter Dienste
  • Erarbeitung eines Kostenmodells und entsprechender Kostenabschätzungen für die Deskribierung des Flurnamenarchives
  • Prototypische Umsetzung im Rahmen des WossiDiA-Systems

Literatur

  1. Holley, Rose. "Crowdsourcing: how and why should libraries do it?." D-Lib Magazine 16.3 (2010): 4.
  2. Carletti, Laura, et al. "Digital humanities and crowdsourcing: An exploration." Museums and the Web, 2013.
  3. Aletras, Nikolaos, Mark Stevenson, and Paul Clough. "Computing similarity between items in a digital library of cultural heritage." Journal on Computing and Cultural Heritage (JOCCH) 5.4 (2012): 16.
  4. Oomen, Johan, and Lora Aroyo. "Crowdsourcing in the cultural heritage domain: opportunities and challenges." Proceedings of the 5th International Conference on Communities and Technologies. ACM, 2011.
  5. Doan, Anhai, Raghu Ramakrishnan, and Alon Y. Halevy. "Crowdsourcing systems on the world-wide web." Communications of the ACM 54.4 (2011): 86-96.
  6. Heipke, Christian. "Crowdsourcing geospatial data." ISPRS Journal of Photogrammetry and Remote Sensing 65.6 (2010): 550-557.
  7. Simon, Rainer, et al. "Semantically augmented annotations in digitized map collections." Proceedings of the 11th annual international ACM/IEEE joint conference on Digital libraries. ACM, 2011.
  8. Rice, Matthew T., et al. "Crowdsourcing techniques for augmenting traditional accessibility maps with transitory obstacle information." Cartography and Geographic Information Science 40.3 (2013): 210-219.