Fenêtre de contexte
La fenêtre de contexte correspond au nombre maximal de jetons qu'un modèle de langage peut traiter en une seule inférence, incluant le prompt système, l'historique de conversation, les documents récupérés et la sortie générée.
Comprendre Fenêtre de contexte
La fenêtre de contexte définit la mémoire de travail d'un modèle de langage. Tout ce que le modèle connaît de la tâche en cours — instructions, historique de conversation, documents récupérés, résultats d'outils — doit tenir dans cette limite. Le contenu qui dépasse la fenêtre de contexte devient invisible pour le modèle lors de cette inférence. Les fenêtres de contexte se sont considérablement agrandies. Les premiers modèles GPT étaient limités à 4 096 jetons. Aujourd'hui, les modèles modernes proposent 128 000 (GPT-4o), 200 000 (Claude 3.5), et même plus de 1 000 000 de jetons (Gemini 1.5 Pro). Ces fenêtres élargies permettent d'intégrer des bases de code entières, des livres ou de longs historiques de conversation d'un seul tenant. Mais ces fenêtres de contexte restent soumises à des limites pratiques. Traiter une fenêtre complète est plus coûteux et plus lent qu'un contexte court. De plus, des recherches montrent que l'attention des LLM peut diminuer pour le contenu situé au milieu de très longues fenêtres — un phénomène appelé "lost in the middle". Les stratégies de récupération du contenu le plus pertinent surpassent celles qui incluent aveuglément tout le contexte. Pour des agents IA comme GAIA, la gestion de la fenêtre de contexte est un défi technique. Chaque appel d'outil consomme des jetons en entrée et en sortie. Les historiques de conversation longs s'accumulent. Les documents récupérés alourdissent la mémoire. Une gestion efficace du contexte — via la synthèse, la récupération sélective et la compression des conversations — est indispensable pour garantir des performances fiables de l'agent.
Comment GAIA utilise Fenêtre de contexte
GAIA gère activement les fenêtres de contexte afin de garantir des performances fiables de ses agents. Elle utilise une récupération sélective via RAG pour n'inclure que le contexte le plus pertinent, résume les historiques de conversation trop longs pour compresser les contenus anciens, et segmente les documents volumineux avant traitement. Cette gestion attentive du contexte permet à GAIA de traiter des flux de travail complexes à plusieurs étapes sans atteindre les limites de tokens ni dégrader la qualité du raisonnement.
Concepts liés
Tokenisation
La tokenisation est le processus qui consiste à découper un texte en unités plus petites appelées jetons, qui constituent les éléments de base en entrée pour les modèles de langage. Les jetons représentent généralement des fragments de mots, des mots entiers ou des signes de ponctuation.
Génération augmentée par récupération (RAG)
La Génération augmentée par récupération (RAG) est une technique qui améliore les réponses d'un LLM en récupérant d'abord des documents ou données pertinents à partir d'une base de connaissances externe et en injectant ce contexte dans l'invite du modèle.
Large Language Model (LLM)
Un Large Language Model (LLM) est un modèle d'apprentissage profond entraîné sur d'immenses ensembles de textes, capable de comprendre, générer et raisonner sur le langage humain dans une grande variété de tâches.
Modèle de langage volumineux (LLM)
Un modèle de langage volumineux (LLM) est une intelligence artificielle entraînée sur d'énormes quantités de textes et capable de comprendre, de générer et de raisonner sur le langage humain avec une remarquable aisance.


