Embeddings
Les embeddings sont des représentations vectorielles denses de données (texte, image, audio, etc.) qui capturent le sens et les relations sémantiques dans un espace de grande dimension.
Comprendre Embeddings
Lorsqu’un modèle d’apprentissage automatique traite du texte, il doit utiliser des nombres plutôt que des mots. Les embeddings répondent à ce besoin en mappant mots, phrases ou documents sur des listes de nombres réels — généralement 768 à 4096 dimensions. Leur propriété clé est que les contenus proches sémantiquement sont également proches numériquement dans cet espace vectoriel. Par exemple, « chien » et « chiot » auront des embeddings proches, tout comme « planifier une réunion » et « réserver un appel ». Cette propriété géométrique rend les embeddings utiles pour la recherche sémantique, les systèmes de recommandation, le clustering et la classification. En comparant la distance entre embeddings, l’IA peut trouver du contenu similaire, détecter les doublons et comprendre les liens conceptuels sans règles explicites. Les modèles de création d’embeddings sont entraînés indépendamment des modèles génératifs. Parmi les modèles d’embedding populaires, on trouve text-embedding-3-large d’OpenAI, embed-v3 de Cohere, ou encore des modèles open source comme nomic-embed-text. Ils produisent des vecteurs de taille fixe quel que soit la longueur d’entrée, ce qui facilite le stockage et la recherche dans les bases de données vectorielles. Dans les systèmes RAG, les embeddings font le lien entre la requête utilisateur et les connaissances stockées. La requête est vectorisée, puis la base de données vectorielle retrouve les embeddings les plus proches, fournissant le contexte pertinent au LLM pour répondre.
Comment GAIA utilise Embeddings
GAIA génère des embeddings pour chaque email, tâche, événement de calendrier et document stocké dans vos outils connectés, puis les indexe dans ChromaDB. Lorsque vous effectuez une recherche d’information ou que GAIA a besoin de contexte pour une tâche, elle convertit la requête en embedding et récupère le contenu stocké le plus pertinent sémantiquement. Cela permet à GAIA de retrouver des informations par signification, et pas seulement par mots-clés, dans l'ensemble de votre espace de travail numérique.
Concepts liés
Représentations vectorielles (embeddings)
Les embeddings vectoriels sont des représentations numériques de textes, images ou autres données qui capturent le sens sémantique, permettant à la machine de comprendre la similarité et les relations entre différentes informations.
Base de données vectorielle
Une base de données vectorielle est un système de base de données conçu pour stocker, indexer et interroger des embeddings vectoriels de haute dimension à grande échelle, permettant une recherche de similarité rapide sur de vastes ensembles de données embarquées.
Recherche sémantique
La recherche sémantique est une technique de recherche qui comprend le sens et l'intention derrière une requête, et retourne des résultats fondés sur la pertinence conceptuelle plutôt que sur la correspondance exacte de mots-clés.
Génération augmentée par récupération (RAG)
La Génération augmentée par récupération (RAG) est une technique qui améliore les réponses d'un LLM en récupérant d'abord des documents ou données pertinents à partir d'une base de connaissances externe et en injectant ce contexte dans l'invite du modèle.


