Wie viele Embeddings kann GAIA speichern?

Die ChromaDB-Instanz von GAIA kann in einer selbst gehosteten Umgebung auf Millionen von Embeddings skaliert werden. Der Cloud-Service wird automatisch angepasst. Typische Nutzer generieren mit jahrelangen E-Mails, Aufgaben und Dokumenten 100.000–500.000 Embeddings.

Embedding

Ein Embedding ist eine dichte numerische Vektordarstellung von Text (oder anderen Daten), die semantische Bedeutung so kodiert, dass ähnliche Konzepte im Vektorraum nahe beieinander liegen.

Verstehen Embedding

Embeddings sind die Brücke zwischen menschlicher Sprache und mathematischer Berechnung. Ein Wort wie „Meeting“ ist für einen Computer als Zeichenkette bedeutungslos. Als 768- oder 1536-dimensionaler Vektor kann es mathematisch mit anderen Vektoren verglichen werden. Embeddings kodieren Bedeutung so, dass „Meeting“ und „Konferenz“ im Vektorraum nahe beieinander liegen, während „Meeting“ und „Datenbank“ weit auseinander liegen. Die Stärke von Embeddings liegt in der semantischen Ähnlichkeitssuche. Bei einer Anfrage wie „E-Mails zum Produktlaunch“ wandelt ein Embedding-Modell die Anfrage in einen Vektor um und findet dann alle gespeicherten E-Mail-Embeddings, die dem Vektor mathematisch ähnlich sind – relevante E-Mails werden so gefunden, ohne dass exakte Stichwortübereinstimmungen erforderlich sind. So werden Semantik und nicht nur Textmuster erkannt. Embedding-Modelle werden separat von Sprachmodellen trainiert und gezielt auf die Darstellungsqualität optimiert. Beliebte Optionen sind die text-embedding-3-Modelle von OpenAI, die Embed-Modelle von Cohere und Open-Source-Modelle wie sentence-transformers. Embeddings sind typischerweise 768 bis 3072 Dimensionen groß. Anwendungen, die Embeddings verwenden, speichern Inhalte in einer Vektor-Datenbank (ChromaDB, Pinecone, Weaviate), die eine schnelle, ungefähre Suche der nächsten Nachbarn über große Embedding-Sammlungen ermöglicht.

Wie GAIA verwendet Embedding

GAIA bettet alle aufgenommenen Inhalte – E-Mails, Aufgaben, Kalendereinträge, Dokumente – in ChromaDB, die eigene Vektordatenbank, ein. Wenn GAIA nach relevantem Kontext sucht (z. B. "Worüber haben wir im Zusammenhang mit dem Q4-Budget gesprochen?"), wird die Anfrage in ein Embedding umgewandelt und ChromaDB nach semantisch ähnlichen Inhalten durchsucht, anstatt nur nach Stichworten zu suchen. So werden passende Inhalte gefunden, auch wenn sie anders formuliert sind.

Häufig gestellte Fragen

Bei der Stichwortsuche werden nur Dokumente gefunden, die die exakten Wörter aus Ihrer Anfrage enthalten. Die Embedding-basierte Suche findet auch Dokumente mit gleichem Bedeutungsgehalt, selbst wenn andere Wörter verwendet wurden. So würde "Budget-Diskussion" über die Embedding-Suche auch "Q4-Meeting zur Finanzplanung" finden, bei der Stichwortsuche aber nicht.

Mehr entdecken

GAIA mit Alternativen vergleichen

Sehen Sie, wie GAIA im Vergleich zu anderen KI-Produktivitätstools abschneidet

GAIA für Ihre Rolle

Entdecken Sie, wie GAIA Fachleuten in verschiedenen Rollen hilft

Embedding

Ein Embedding ist eine dichte numerische Vektordarstellung von Text (oder anderen Daten), die semantische Bedeutung so kodiert, dass ähnliche Konzepte im Vektorraum nahe beieinander liegen.

Embedding

Verstehen Embedding

Wie GAIA verwendet Embedding

Verwandte Konzepte

Vektoreinbettungen

Vektor-Datenbank

Semantische Suche

Retrieval-Augmented Generation (RAG)

Graphbasierter Speicher

Häufig gestellte Fragen