Embedding
Ein Embedding ist eine dichte numerische Vektordarstellung von Text (oder anderen Daten), die semantische Bedeutung so kodiert, dass ähnliche Konzepte im Vektorraum nahe beieinander liegen.
Verstehen Embedding
Embeddings sind die Brücke zwischen menschlicher Sprache und mathematischer Berechnung. Ein Wort wie „Meeting“ ist für einen Computer als Zeichenkette bedeutungslos. Als 768- oder 1536-dimensionaler Vektor kann es mathematisch mit anderen Vektoren verglichen werden. Embeddings kodieren Bedeutung so, dass „Meeting“ und „Konferenz“ im Vektorraum nahe beieinander liegen, während „Meeting“ und „Datenbank“ weit auseinander liegen. Die Stärke von Embeddings liegt in der semantischen Ähnlichkeitssuche. Bei einer Anfrage wie „E-Mails zum Produktlaunch“ wandelt ein Embedding-Modell die Anfrage in einen Vektor um und findet dann alle gespeicherten E-Mail-Embeddings, die dem Vektor mathematisch ähnlich sind – relevante E-Mails werden so gefunden, ohne dass exakte Stichwortübereinstimmungen erforderlich sind. So werden Semantik und nicht nur Textmuster erkannt. Embedding-Modelle werden separat von Sprachmodellen trainiert und gezielt auf die Darstellungsqualität optimiert. Beliebte Optionen sind die text-embedding-3-Modelle von OpenAI, die Embed-Modelle von Cohere und Open-Source-Modelle wie sentence-transformers. Embeddings sind typischerweise 768 bis 3072 Dimensionen groß. Anwendungen, die Embeddings verwenden, speichern Inhalte in einer Vektor-Datenbank (ChromaDB, Pinecone, Weaviate), die eine schnelle, ungefähre Suche der nächsten Nachbarn über große Embedding-Sammlungen ermöglicht.
Wie GAIA verwendet Embedding
GAIA bettet alle aufgenommenen Inhalte – E-Mails, Aufgaben, Kalendereinträge, Dokumente – in ChromaDB, die eigene Vektordatenbank, ein. Wenn GAIA nach relevantem Kontext sucht (z. B. "Worüber haben wir im Zusammenhang mit dem Q4-Budget gesprochen?"), wird die Anfrage in ein Embedding umgewandelt und ChromaDB nach semantisch ähnlichen Inhalten durchsucht, anstatt nur nach Stichworten zu suchen. So werden passende Inhalte gefunden, auch wenn sie anders formuliert sind.
Verwandte Konzepte
Vektoreinbettungen
Vektoreinbettungen sind numerische Repräsentationen von Text, Bildern oder anderen Daten, die semantische Bedeutungen abbilden und es Maschinen ermöglichen, Ähnlichkeiten und Beziehungen zwischen Informationsstücken zu erkennen.
Vektor-Datenbank
Eine Vektor-Datenbank ist ein Datenbanksystem, das darauf ausgelegt ist, hochdimensionale Vektor-Embeddings in großem Maßstab zu speichern, zu indexieren und abzufragen. So ermöglicht sie eine schnelle Ähnlichkeitssuche in großen Sammlungen eingebetteter Daten.
Semantische Suche
Semantische Suche ist eine Suchmethode, die die Bedeutung und Intention hinter einer Anfrage versteht und die Ergebnisse anhand konzeptueller Relevanz statt exakter Schlüsselwort-Übereinstimmungen liefert.
Retrieval-Augmented Generation (RAG)
Retrieval-Augmented Generation (RAG) ist eine Technik, bei der LLM-Antworten durch das Abrufen relevanter Dokumente oder Daten aus einer externen Wissensdatenbank verbessert werden, wobei dieser Kontext in den Prompt des Modells eingespeist wird.
Graphbasierter Speicher
Graphbasierter Speicher ist eine KI-Speicherarchitektur, die Informationen als miteinander verbundene Knoten und Beziehungen speichert. Dadurch wird ein reiches Kontextverständnis und dauerhaftes Wissen über verschiedene Interaktionen hinweg ermöglicht.


