Génération augmentée par récupération (RAG)
La Génération augmentée par récupération (RAG) est une technique qui améliore les réponses d'un LLM en récupérant d'abord des documents ou données pertinents à partir d'une base de connaissances externe et en injectant ce contexte dans l'invite du modèle.
Comprendre Génération augmentée par récupération (RAG)
Les LLM ont une limitation fondamentale : leurs connaissances sont figées au moment de l'entraînement et limitées par leur fenêtre de contexte. La RAG répond à ces deux problèmes en ajoutant une étape de récupération avant la génération. Lorsqu'une requête arrive, un système de récupération recherche du contenu pertinent dans une base de connaissances externe, et les documents récupérés sont injectés dans l'invite du LLM comme contexte. Le LLM génère ensuite une réponse fondée sur les informations retrouvées. L'étape de récupération utilise généralement une recherche sémantique sur une base de données vectorielle. La requête est encodée, et la base de données vectorielle retrouve les embeddings stockés les plus similaires, puis renvoie les documents d'origine. Cela permet au LLM de répondre à des questions sur des informations sur lesquelles il n'a jamais été entraîné, comme vos e-mails, documents d'entreprise ou données récentes. La RAG réduit considérablement les hallucinations lors de tâches nécessitant beaucoup de connaissances, car le modèle s'appuie sur des documents sources de référence plutôt que sur ses poids mémorisés. Les réponses peuvent également inclure la citation des sources, rendant leur vérification possible. Les techniques avancées de RAG incluent la recherche hybride (qui combine la similarité vectorielle et la recherche par mots-clés), le reclassement des documents retrouvés par pertinence, et la recherche multi-hop où le modèle récupère des informations sur plusieurs étapes. Ces améliorations augmentent significativement la précision pour les questions complexes.
Comment GAIA utilise Génération augmentée par récupération (RAG)
GAIA met en œuvre la génération augmentée par récupération (RAG) pour ancrer ses réponses dans vos propres données. Lorsque vous posez une question ou que GAIA a besoin de contexte pour accomplir une tâche, elle récupère des e-mails, tâches et documents pertinents depuis ChromaDB avant de générer une réponse. Cela signifie que GAIA peut répondre à des questions comme « Qu’avons-nous décidé concernant le calendrier du projet ? » en cherchant réellement dans vos e-mails et comptes rendus de réunion plutôt qu’en se basant simplement sur ses connaissances générales.
Concepts liés
Base de données vectorielle
Une base de données vectorielle est un système de base de données conçu pour stocker, indexer et interroger des embeddings vectoriels de haute dimension à grande échelle, permettant une recherche de similarité rapide sur de vastes ensembles de données embarquées.
Embeddings
Les embeddings sont des représentations vectorielles denses de données (texte, image, audio, etc.) qui capturent le sens et les relations sémantiques dans un espace de grande dimension.
Recherche sémantique
La recherche sémantique est une technique de recherche qui comprend le sens et l'intention derrière une requête, et retourne des résultats fondés sur la pertinence conceptuelle plutôt que sur la correspondance exacte de mots-clés.
Fenêtre de contexte
La fenêtre de contexte correspond au nombre maximal de jetons qu'un modèle de langage peut traiter en une seule inférence, incluant le prompt système, l'historique de conversation, les documents récupérés et la sortie générée.
Modèle de langage volumineux (LLM)
Un modèle de langage volumineux (LLM) est une intelligence artificielle entraînée sur d'énormes quantités de textes et capable de comprendre, de générer et de raisonner sur le langage humain avec une remarquable aisance.


