Answering Queries using Views mit LLMs

Betreuer / Ansprechpartner

  • Hannes Grunert

Charakter

  • Konzeption

  • Evaluation

Vorkenntnisse

  • Pflicht: Vorlesung Data Science oder Data Warehouses

Beschreibung

Um die Qualität von Generativer KI zu verbessern wird häufig Retrieval Augmented Generation (RAG) verwendet. Dabei bekommt das Sprachmodell als zusätzlichen Input Zugriff auf einen oder mehrere Datensätze, die es mit in die Generation der Ausgabe einbezieht. Handeltes sich bei den Datenquellen um relationale Datenbanken, so greift hier das LLM entweder direkt auf die Basisrelationen oder (datenschutzfreundlicher) davon abgeleitete Sichten zu.

Ein bekanntes Problem in der Datenbanktheorie ist „Answering Queries using Views“ (AQuV). Dabei soll eine Anfrage so umgeformt werden, dass sie statt den Basisrelationen die erzeugten Sichten nutzt und damit ein maximales Teilergebnis zurückliefert, ohne zusätzliche Informationen zu beinhalten. In der Literatur sind dabei verschiedene Verfahren, wie MiniCon, Inverse Rules und der Bucket-Algorithmus bekannt, die eine Auswahl der Sichten zur Beantwortung der ursprünglichen Anfrage zusammenstellen. 

Im Rahmen dieser Abschlussarbeit soll untersucht werden, wie sich LLMs am besten mit den AQuV-Algorithmen koppeln lassen. Dabei ist einerseits die Kopplungstechnik (Bereitstellung eines Algorithmus via MCP oder nur textuelle Beschreibung der Verfahren) interessant, aber ebenso die notwendigen Metadaten zur Beschreibung der Sichten und Basisrelationen sowie die Methoden zum Prompt Engineering. Die Evaluation erfolgt anhand existierender Benchmarks und realer Anwendungsszenarien. 

Arbeitsschritte

  • Literaturanalyse
    • LLMs, Prompt Engineering, MCP
    • Answering Queries using Views
  • Konzeption
    • Auswahl geeigneter Kopplungsmethoden
    • Genauere Spezifizierung der Kopplung
    • Spezifizierung von Metadaten zur Beschreibung des Datenbankschemas
    • Prompt Engineering
  • Implementierung des Konzepts
    • Aufbau einer Pipeline zur Anfrageverarbeitung unter Einbezug von LLMs
    • Implementierung der ausgewählten Kopplungstechniken
    • Dokumentation
  • Evaluation
    • Definition einer Qualitätsmetrik
    • Test der Implementierung & Benchmarking

Technologien

  • Programmiersprache nach Wahl; bevorzugt Java

  • SQL (Standard)

  • LLMs

Literatur

  • CHANDRA, ASHOK K. und PHILIP M. MERLIN: Optimal Implementation of Conjunctive Queries in Relational Data Bases. In: HOPCROFT, JOHN E., EMILY P. FRIEDMAN und MICHAEL A. HARRISON (Herausgeber): Proceedings of the 9th Annual ACM Symposium on Theory of Computing, May 4-6, 1977, Boulder, Colorado, USA, Seiten 77–90. ACM, 1977.
  • LEVY, ALON Y., ALBERTO O. MENDELZON, YEHOSHUA SAGIV und DIVESH SRIVASTAVA: Answering Queries Using Views. In: PODS, Seiten 95–104. ACM Press, 1995.
  • LEVY, ALON Y., ANAND RAJARAMAN und JOANN J. ORDILLE: Querying Heterogeneous Information Sources Using Source Descriptions. In: VIJAYARAMAN, T. M., ALEJANDRO P. BUCHMANN, C. MOHAN und NANDLAL L. SARDA (Herausgeber): VLDB’96, Proceedings of 22th International Conference on Very Large Data Bases, September 3-6, 1996, Mumbai (Bombay), India, Seiten 251–262. Morgan Kaufmann, 1996.
  • POTTINGER, RACHEL und ALON Y. LEVY: A Scalable Algorithm for Answering Queries Using Views. In: VLDB, Seiten 484–495. Morgan Kaufmann, 2000.

Weitere Literatur wird zu Beginn der Arbeit bekanntgegeben.