Embedding
Un embedding est une représentation vectorielle numérique dense d'un texte (ou d'autres données) qui encode le sens sémantique de façon à rapprocher dans l'espace vectoriel les concepts similaires.
Comprendre Embedding
Les embeddings font le lien entre le langage humain et le calcul mathématique. Un mot comme « réunion » est incompréhensible pour un ordinateur sous forme de chaîne de caractères. Transformé en un vecteur de 768 ou 1536 dimensions, il peut être comparé mathématiquement à d’autres vecteurs. Les embeddings encodent le sens, de sorte que « réunion » et « conférence » sont proches dans l’espace vectoriel, tandis que « réunion » et « base de données » sont éloignés. La grande force des embeddings réside dans la recherche de similarité sémantique. Si vous cherchez « emails concernant le lancement du produit », un modèle d’embedding convertit la requête en vecteur, puis recherche tous les emails stockés qui sont mathématiquement similaires : cela permet de retrouver les messages pertinents sans exiger une correspondance exacte des mots-clés. Cela prend en compte le sens, pas seulement les motifs de texte. Les modèles d'embedding sont entraînés séparément des modèles de langage et optimisés spécifiquement pour la qualité de la représentation. Les modèles text-embedding-3 d’OpenAI, les modèles embed de Cohere, et les modèles open source comme sentence-transformers font partie des plus utilisés. Les embeddings comportent généralement entre 768 et 3072 dimensions. Les applications utilisant les embeddings stockent le contenu dans une base de données vectorielle (ChromaDB, Pinecone, Weaviate) qui permet une recherche rapide d’éléments similaires, même dans de vastes collections d’embeddings.
Comment GAIA utilise Embedding
GAIA intègre tous les contenus ingérés — e-mails, tâches, événements d'agenda, documents — dans ChromaDB, sa base de données vectorielle. Lorsqu'elle doit retrouver un contexte pertinent (par exemple, "qu'avons-nous dit sur le budget du T4 ?"), GAIA convertit la requête en un embedding et recherche dans ChromaDB le contenu sémantiquement similaire, plutôt que par simple correspondance de mots-clés, ce qui permet de faire ressortir les éléments pertinents, quel que soit le libellé exact.
Concepts liés
Représentations vectorielles (embeddings)
Les embeddings vectoriels sont des représentations numériques de textes, images ou autres données qui capturent le sens sémantique, permettant à la machine de comprendre la similarité et les relations entre différentes informations.
Base de données vectorielle
Une base de données vectorielle est un système de base de données conçu pour stocker, indexer et interroger des embeddings vectoriels de haute dimension à grande échelle, permettant une recherche de similarité rapide sur de vastes ensembles de données embarquées.
Recherche sémantique
La recherche sémantique est une technique de recherche qui comprend le sens et l'intention derrière une requête, et retourne des résultats fondés sur la pertinence conceptuelle plutôt que sur la correspondance exacte de mots-clés.
Génération augmentée par récupération (RAG)
La Génération augmentée par récupération (RAG) est une technique qui améliore les réponses d'un LLM en récupérant d'abord des documents ou données pertinents à partir d'une base de connaissances externe et en injectant ce contexte dans l'invite du modèle.
Mémoire basée sur les graphes
La mémoire basée sur les graphes est une architecture de mémoire IA qui stocke les informations sous forme de nœuds interconnectés et de relations, permettant une compréhension contextuelle riche et une persistance des connaissances à travers les interactions.


