Retrieval-Augmented Generation (RAG)
Retrieval-Augmented Generation (RAG) ist eine Technik, bei der LLM-Antworten durch das Abrufen relevanter Dokumente oder Daten aus einer externen Wissensdatenbank verbessert werden, wobei dieser Kontext in den Prompt des Modells eingespeist wird.
Verstehen Retrieval-Augmented Generation (RAG)
LLMs haben eine grundlegende Einschränkung: Ihr Wissen ist zum Zeitpunkt des Trainings eingefroren und durch ihr Kontextfenster begrenzt. RAG löst beide Probleme, indem vor der Generierung ein Retrieval-Schritt hinzugefügt wird. Bei einer Anfrage durchsucht ein Retrieval-System eine externe Wissensdatenbank nach relevantem Inhalt, und die abgerufenen Dokumente werden dem Prompt des LLM als Kontext hinzugefügt. Das LLM erstellt daraufhin eine Antwort, die auf den gefundenen Informationen basiert. Der Retrieval-Schritt nutzt typischerweise semantische Suche über eine Vektordatenbank. Die Anfrage wird eingebettet, und die Vektordatenbank sucht die ähnlichsten gespeicherten Embeddings heraus und gibt die Originaldokumente zurück. So kann das LLM auf Fragen zu Inhalten antworten, die nicht im Training enthalten waren, wie zum Beispiel spezifische E-Mails, Firmendokumente oder aktuelle Daten. RAG reduziert das Halluzinieren bei wissensintensiven Aufgaben erheblich, da das Modell Quellendokumente zur Referenz erhält und nicht nur auf erlernten Gewichten basiert. Die Antworten können zudem Quellen angeben und so nachvollziehbar werden. Fortgeschrittene RAG-Techniken umfassen hybrides Suchen (Kombination aus Vektor- und Schlüsselwortsuche), das erneute Ranking der abgerufenen Dokumente nach Relevanz sowie Multi-Hop-Retrieval, bei dem das Modell schrittweise Informationen über mehrere Schritte hinweg abruft. Diese Verbesserungen steigern die Genauigkeit bei komplexen Fragestellungen erheblich.
Wie GAIA verwendet Retrieval-Augmented Generation (RAG)
GAIA nutzt RAG, um seine Antworten auf Ihre tatsächlichen Daten zu stützen. Wenn Sie eine Frage stellen oder GAIA Kontext für eine Aufgabe benötigt, werden relevante E-Mails, Aufgaben und Dokumente aus ChromaDB abgerufen, bevor eine Antwort generiert wird. Das bedeutet, GAIA kann Fragen wie „Was haben wir zum Projektzeitplan beschlossen?“ beantworten, indem es tatsächlich Ihre E-Mails und Besprechungsnotizen durchsucht, statt nur aus allgemeinem Wissen zu raten.
Verwandte Konzepte
Vektor-Datenbank
Eine Vektor-Datenbank ist ein Datenbanksystem, das darauf ausgelegt ist, hochdimensionale Vektor-Embeddings in großem Maßstab zu speichern, zu indexieren und abzufragen. So ermöglicht sie eine schnelle Ähnlichkeitssuche in großen Sammlungen eingebetteter Daten.
Embeddings
Embeddings sind dichte numerische Vektorrepräsentationen von Daten – etwa Text, Bildern oder Audio –, die semantische Bedeutungen und Beziehungen im hochdimensionalen Raum abbilden.
Semantische Suche
Semantische Suche ist eine Suchmethode, die die Bedeutung und Intention hinter einer Anfrage versteht und die Ergebnisse anhand konzeptueller Relevanz statt exakter Schlüsselwort-Übereinstimmungen liefert.
Kontextfenster
Das Kontextfenster ist die maximale Anzahl an Tokens, die ein Sprachmodell in einem einzelnen Inferenzaufruf verarbeiten kann. Es umfasst den System-Prompt, die Gesprächshistorie, abgerufene Dokumente und die generierte Ausgabe.
Large Language Model (LLM)
Ein Large Language Model (LLM) ist ein künstliches Intelligenzmodell, das mit riesigen Mengen an Textdaten trainiert wurde und menschliche Sprache bemerkenswert flüssig verstehen, generieren und verarbeiten kann.


