Vektor-Datenbank
Eine Vektor-Datenbank ist ein Datenbanksystem, das darauf ausgelegt ist, hochdimensionale Vektor-Embeddings in großem Maßstab zu speichern, zu indexieren und abzufragen. So ermöglicht sie eine schnelle Ähnlichkeitssuche in großen Sammlungen eingebetteter Daten.
Verstehen Vektor-Datenbank
Traditionelle Datenbanken speichern strukturierte Daten in Tabellen und ermöglichen Abfragen mit genauen Filterkriterien. Vektor-Datenbanken funktionieren anders: Sie speichern Gleitkommavektoren (Embeddings) und durchsuchen diese nach Ähnlichkeit, z. B. mittels Kosinus- oder euklidischer Distanz. Damit sind sie essenzielle Infrastruktur für KI-Anwendungen, die semantische Suche, Empfehlung oder Gedächtnis benötigen. Die zentrale Herausforderung, die Vektor-Datenbanken lösen, ist das 'Nearest Neighbor'-Problem im großen Maßstab. Die Suche nach den nächstgelegenen Vektoren zu einem Anfragevektor unter Millionen gespeicherter Embeddings erfordert spezialisierte Indexierungsalgorithmen. Approximate Nearest Neighbor (ANN)-Algorithmen wie HNSW und IVF beschleunigen dies erheblich, indem sie mit geringem Genauigkeitsverlust enorme Geschwindigkeitsvorteile erzielen. Beliebte Vektor-Datenbanken sind unter anderem ChromaDB, Pinecone, Weaviate, Qdrant und pgvector (eine PostgreSQL-Erweiterung). Sie unterscheiden sich hinsichtlich Bereitstellungsmodell, Skalierbarkeit, Filterfunktionen und Benutzerfreundlichkeit. ChromaDB ist besonders wegen seiner Einfachheit bei lokalen und selbst gehosteten Installationen populär. In RAG-Systemen speichert die Vektor-Datenbank Embeddings Ihrer Wissensbasis. Bei Abfragen findet die Datenbank die relevantesten Embeddings und liefert die Originaldokumente an das LLM zurück, um diese als Kontext zu verwenden. Dadurch können KI-Systeme gezielt auf Wissen zugreifen, ohne alles in das Kontextfenster des LLM laden zu müssen.
Wie GAIA verwendet Vektor-Datenbank
GAIA verwendet ChromaDB als Vektordatenbank, um Embeddings deiner E-Mails, Aufgaben, Dokumente und Kalendereinträge zu speichern und abzufragen. Wenn GAIA relevanten Kontext für eine Aufgabe finden oder eine Suchanfrage beantworten muss, führt ChromaDB eine schnelle Ähnlichkeitssuche über alle eingebetteten Inhalte durch. Dadurch erhält GAIA ein dauerhaftes, durchsuchbares Gedächtnis deines gesamten digitalen Arbeitsplatzes, das mit jedem neuen indexierten Inhalt intelligenter wird.
Verwandte Konzepte
Embeddings
Embeddings sind dichte numerische Vektorrepräsentationen von Daten – etwa Text, Bildern oder Audio –, die semantische Bedeutungen und Beziehungen im hochdimensionalen Raum abbilden.
Vektoreinbettungen
Vektoreinbettungen sind numerische Repräsentationen von Text, Bildern oder anderen Daten, die semantische Bedeutungen abbilden und es Maschinen ermöglichen, Ähnlichkeiten und Beziehungen zwischen Informationsstücken zu erkennen.
Retrieval-Augmented Generation (RAG)
Retrieval-Augmented Generation (RAG) ist eine Technik, bei der LLM-Antworten durch das Abrufen relevanter Dokumente oder Daten aus einer externen Wissensdatenbank verbessert werden, wobei dieser Kontext in den Prompt des Modells eingespeist wird.
Semantische Suche
Semantische Suche ist eine Suchmethode, die die Bedeutung und Intention hinter einer Anfrage versteht und die Ergebnisse anhand konzeptueller Relevanz statt exakter Schlüsselwort-Übereinstimmungen liefert.
Graphbasierter Speicher
Graphbasierter Speicher ist eine KI-Speicherarchitektur, die Informationen als miteinander verbundene Knoten und Beziehungen speichert. Dadurch wird ein reiches Kontextverständnis und dauerhaftes Wissen über verschiedene Interaktionen hinweg ermöglicht.


