Embeddings
Embeddings sind dichte numerische Vektorrepräsentationen von Daten – etwa Text, Bildern oder Audio –, die semantische Bedeutungen und Beziehungen im hochdimensionalen Raum abbilden.
Verstehen Embeddings
Ein Machine-Learning-Modell arbeitet nicht direkt mit Worten, sondern mit Zahlen. Embeddings lösen dies, indem sie Wörter, Sätze oder Dokumente als Listen von Fließkommazahlen abbilden – meist mit 768 bis 4096 Dimensionen. Das Entscheidende ist: Semantisch ähnliche Inhalte liegen in diesem Vektorraum auch numerisch nah beieinander. Zum Beispiel liegen die Embeddings von „Hund“ und „Welpe“ dicht beieinander. Auch „Ein Meeting planen“ und „Ein Gespräch buchen“ sind Nachbarn. Diese geometrische Eigenschaft macht Embeddings wertvoll für semantische Suche, Empfehlungssysteme, Clustering und Klassifikation. Durch Vergleich der Distanzen zwischen Embeddings können KI-Systeme verwandte Inhalte finden, Duplikate erkennen und konzeptionelle Zusammenhänge erfassen – ganz ohne explizite Regeln. Embedding-Modelle werden separat von generativen Modellen trainiert. Bekannte Embedding-Modelle sind etwa OpenAI’s text-embedding-3-large, Cohere’s embed-v3 und Open-Source-Modelle wie nomic-embed-text. Sie produzieren Vektoren mit fester Größe – unabhängig von der Eingabelänge –, was effiziente Speicherung und Abfrage in Vektordatenbanken ermöglicht. In RAG-Systemen bilden Embeddings die Brücke zwischen Benutzeranfragen und gespeichertem Wissen. Die Anfrage wird eingebettet und die Vektordatenbank sucht die nächstgelegenen gespeicherten Embeddings heraus, um dem LLM relevanten Kontext für die Antwort bereitzustellen.
Wie GAIA verwendet Embeddings
GAIA generiert Embeddings für jede E-Mail, Aufgabe, jeden Kalendereintrag und jedes Dokument, das in Ihren verbundenen Tools gespeichert ist, und indexiert diese dann in ChromaDB. Wenn Sie nach Informationen suchen oder GAIA Kontext für eine Aufgabe benötigt, wird die Anfrage ebenfalls eingebettet und der semantisch relevanteste gespeicherte Inhalt abgerufen. So kann GAIA Informationen nicht nur anhand von Schlüsselwörtern, sondern anhand der Bedeutung im gesamten digitalen Arbeitsbereich finden.
Verwandte Konzepte
Vektoreinbettungen
Vektoreinbettungen sind numerische Repräsentationen von Text, Bildern oder anderen Daten, die semantische Bedeutungen abbilden und es Maschinen ermöglichen, Ähnlichkeiten und Beziehungen zwischen Informationsstücken zu erkennen.
Vektor-Datenbank
Eine Vektor-Datenbank ist ein Datenbanksystem, das darauf ausgelegt ist, hochdimensionale Vektor-Embeddings in großem Maßstab zu speichern, zu indexieren und abzufragen. So ermöglicht sie eine schnelle Ähnlichkeitssuche in großen Sammlungen eingebetteter Daten.
Semantische Suche
Semantische Suche ist eine Suchmethode, die die Bedeutung und Intention hinter einer Anfrage versteht und die Ergebnisse anhand konzeptueller Relevanz statt exakter Schlüsselwort-Übereinstimmungen liefert.
Retrieval-Augmented Generation (RAG)
Retrieval-Augmented Generation (RAG) ist eine Technik, bei der LLM-Antworten durch das Abrufen relevanter Dokumente oder Daten aus einer externen Wissensdatenbank verbessert werden, wobei dieser Kontext in den Prompt des Modells eingespeist wird.


