Generierung und statistische Analyse von KI-generierten Textkorpora
Betreuer / Ansprechpartner
- Hannes Grunert
Charakter
Konzeption
Prototypische Implementierung
Vorkenntnisse
- Pflicht: Vorlesung Data Science oder vergleichbare Vorlesungen
- Optional: Digitale Bibliotheken und Multimedia-Information-Retrieval
Beschreibung
Ein aktuelles Problem beim Schreiben studentischer Abschlussarbeiten, wie Bachelor- und Masterarbeiten, ist der Einsatz von Künstlicher Intelligenz (KI), insbesondere der generativen KI (GPT & Co). Während der Einsatz von KI zur auf bereits geschriebenen Ausarbeitungen zur Verbesserung von Rechtschreibung, Grammatik und Stil durchaus akzeptabel ist, ist die Erstellung kompletter Abschnitte, Kapitel bis hin zur kompletten Arbeit nicht hinnehmbar.
Durch statistische Maße, wie Perplexität und Burstiness, lassen sich Texte auf ihren KI-Anteil hin untersuchen. Methoden des Information Retrieval und des Natural Language Processings lassen sich nutzen, um verschiedene Kennzahlen und abgeleitete Werte über einzelne Texte bzw. Paare von Texten einer Dokumentkollektion abzuleiten. Hierzu gehören für die Überprüfung auf KI-generierte Inhalte insbesondere Zeichen- und Wort-n-Gramme. Allerdings bedarf es spezieller Dokumentenkollektionen zu bestimmten, eingegrenzten Themen, um aussagekräftige Ergebnisse zu erhalten.
Im Rahmen dieser Bachelorarbeit sollen (mindestens) zwei Textkorpora entwickelt werden: Der erste Korpus enthält eine Sammlung studentischer Ausarbeitungen in deutscher Sprache mit Bezug zu Informatik-relevanten Themen. Die Beiträge sind dabei (manuell) zu klassifizieren. Der zweite Korpus enthält Beiträge zu den gleichen Kategorien, jedoch ausschließlich mit KI-generierten Inhalten.
Darauf aufbauend soll ein statistisches Modell zur Berechnung der Perplexität erstellt werden. Eine Evaluation des Ansatzes schließt die Arbeit ab.
Arbeitsschritte
- Einarbeitung in das Gebiet / Literaturanalyse / Stand der Technik
- Plagiatserkennung & Erkennung KI-generierter Inhalte
- Natural Language Processing & Information Retrieval
- Klassifikation von Themen
- Konzeption
- Auswahl bzw. Erstellung einer Klassifikation zu Informatik-Themen
- Pipeline zur
- Generierung von KI-generierten Abschlussarbeiten
- Ableitung von Kennzahlen aus Texten
- Berechnung des KI-Anteils
- Implementierung des Konzepts
- Test und Validierung des Verfahrens
Technologien
Programmiersprachen nach Wahl; bevorzugt Java
Literatur
- Baeza-Yates, Ricardo, Ribeiro-Neto, Berthier: Modern Information Retrieval: The Concepts and Technology behind Search, 2nd Edition, ACM Press Books, Addison-Wesley Professional, 2011
- Strzalkowski, Tomek. "Natural language information retrieval." Information Processing & Management 31.3 (1995): 397-417.
- Grossman, David A., and Ophir Frieder. Information retrieval: Algorithms and heuristics. Vol. 15. Springer Science & Business Media, 2004.