Combien d'embeddings GAIA peut-il stocker ?

L'instance ChromaDB de GAIA peut gérer des millions d'embeddings en déploiement auto-hébergé. Le service hébergé évolue automatiquement. Un utilisateur typique qui a des années d'e-mails, de tâches et de documents génère généralement de 100 000 à 500 000 embeddings.

Embedding

Un embedding est une représentation vectorielle numérique dense d'un texte (ou d'autres données) qui encode le sens sémantique de façon à rapprocher dans l'espace vectoriel les concepts similaires.

Comprendre Embedding

Les embeddings font le lien entre le langage humain et le calcul mathématique. Un mot comme « réunion » est incompréhensible pour un ordinateur sous forme de chaîne de caractères. Transformé en un vecteur de 768 ou 1536 dimensions, il peut être comparé mathématiquement à d’autres vecteurs. Les embeddings encodent le sens, de sorte que « réunion » et « conférence » sont proches dans l’espace vectoriel, tandis que « réunion » et « base de données » sont éloignés. La grande force des embeddings réside dans la recherche de similarité sémantique. Si vous cherchez « emails concernant le lancement du produit », un modèle d’embedding convertit la requête en vecteur, puis recherche tous les emails stockés qui sont mathématiquement similaires : cela permet de retrouver les messages pertinents sans exiger une correspondance exacte des mots-clés. Cela prend en compte le sens, pas seulement les motifs de texte. Les modèles d'embedding sont entraînés séparément des modèles de langage et optimisés spécifiquement pour la qualité de la représentation. Les modèles text-embedding-3 d’OpenAI, les modèles embed de Cohere, et les modèles open source comme sentence-transformers font partie des plus utilisés. Les embeddings comportent généralement entre 768 et 3072 dimensions. Les applications utilisant les embeddings stockent le contenu dans une base de données vectorielle (ChromaDB, Pinecone, Weaviate) qui permet une recherche rapide d’éléments similaires, même dans de vastes collections d’embeddings.

Comment GAIA utilise Embedding

GAIA intègre tous les contenus ingérés — e-mails, tâches, événements d'agenda, documents — dans ChromaDB, sa base de données vectorielle. Lorsqu'elle doit retrouver un contexte pertinent (par exemple, "qu'avons-nous dit sur le budget du T4 ?"), GAIA convertit la requête en un embedding et recherche dans ChromaDB le contenu sémantiquement similaire, plutôt que par simple correspondance de mots-clés, ce qui permet de faire ressortir les éléments pertinents, quel que soit le libellé exact.

Concepts liés

Représentations vectorielles (embeddings)

Les embeddings vectoriels sont des représentations numériques de textes, images ou autres données qui capturent le sens sémantique, permettant à la machine de comprendre la similarité et les relations entre différentes informations.

Base de données vectorielle

Une base de données vectorielle est un système de base de données conçu pour stocker, indexer et interroger des embeddings vectoriels de haute dimension à grande échelle, permettant une recherche de similarité rapide sur de vastes ensembles de données embarquées.

Recherche sémantique

La recherche sémantique est une technique de recherche qui comprend le sens et l'intention derrière une requête, et retourne des résultats fondés sur la pertinence conceptuelle plutôt que sur la correspondance exacte de mots-clés.

Génération augmentée par récupération (RAG)

La Génération augmentée par récupération (RAG) est une technique qui améliore les réponses d'un LLM en récupérant d'abord des documents ou données pertinents à partir d'une base de connaissances externe et en injectant ce contexte dans l'invite du modèle.

Mémoire basée sur les graphes

La mémoire basée sur les graphes est une architecture de mémoire IA qui stocke les informations sous forme de nœuds interconnectés et de relations, permettant une compréhension contextuelle riche et une persistance des connaissances à travers les interactions.

Questions fréquentes

Une recherche par mots-clés trouve les documents contenant exactement les mots de votre requête. Une recherche basée sur les embeddings trouve les documents ayant le même sens, même si des mots différents sont utilisés. "Discussion sur le budget" pourra ainsi retrouver "réunion de planification financière du T4" grâce à la recherche par embedding, mais pas par recherche de mots-clés.

Embedding

Comprendre Embedding

Comment GAIA utilise Embedding

Concepts liés

Représentations vectorielles (embeddings)

Base de données vectorielle

Recherche sémantique

Génération augmentée par récupération (RAG)

Mémoire basée sur les graphes

Questions fréquentes

Explorer plus

Comparer GAIA avec les alternatives

GAIA pour votre rôle

Embedding

Comprendre Embedding

Comment GAIA utilise Embedding

Concepts liés

Représentations vectorielles (embeddings)

Base de données vectorielle

Recherche sémantique

Génération augmentée par récupération (RAG)

Mémoire basée sur les graphes

Questions fréquentes

Explorer plus

Comparer GAIA avec les alternatives

GAIA pour votre rôle

Comprendre Embedding

Comment GAIA utilise Embedding

Concepts liés

Représentations vectorielles (embeddings)

Base de données vectorielle

Recherche sémantique

Génération augmentée par récupération (RAG)

Mémoire basée sur les graphes

Questions fréquentes

En quoi un embedding diffère-t-il d'une recherche par mots-clés ?

Combien d'embeddings GAIA peut-il stocker ?

Explorer plus

Comparer GAIA avec les alternatives

GAIA pour votre rôle

Comprendre Embedding

Comment GAIA utilise Embedding

Concepts liés

Représentations vectorielles (embeddings)

Base de données vectorielle

Recherche sémantique

Génération augmentée par récupération (RAG)

Mémoire basée sur les graphes

Questions fréquentes

En quoi un embedding diffère-t-il d'une recherche par mots-clés ?

Combien d'embeddings GAIA peut-il stocker ?

Explorer plus

Comparer GAIA avec les alternatives

GAIA pour votre rôle