Tokenisation
La tokenisation est le processus qui consiste à découper un texte en unités plus petites appelées jetons, qui constituent les éléments de base en entrée pour les modèles de langage. Les jetons représentent généralement des fragments de mots, des mots entiers ou des signes de ponctuation.
Comprendre Tokenisation
Avant qu’un modèle de langage puisse traiter un texte, celui-ci doit être converti en jetons. Les LLM modernes utilisent des algorithmes de tokenisation en sous-mots comme Byte Pair Encoding (BPE) ou SentencePiece, qui équilibrent la taille du vocabulaire et la couverture linguistique. Les mots courants obtiennent un jeton unique ; les mots rares sont divisés en plusieurs sous-parties. En moyenne, un jeton correspond à environ quatre caractères ou aux trois quarts d’un mot anglais. La tokenisation est importante pour trois raisons pratiques. Premièrement, la fenêtre de contexte est mesurée en jetons, et non en mots ou en caractères. Une fenêtre de contexte de 128 000 jetons contient environ 96 000 mots anglais. Deuxièmement, les coûts des API sont calculés au jeton, aussi bien pour l’entrée que pour la sortie. Troisièmement, la tokenisation influence la façon dont les modèles traitent différentes langues. Les tokenizeurs sont spécifiques à chaque langue. La bibliothèque tiktoken d’OpenAI, les tokenizeurs de Hugging Face et celui d’Anthropic utilisent chacun des vocabulaires différents ; un même texte est donc découpé différemment selon les modèles. Cela modifie le calcul de la fenêtre de contexte et les estimations de coût. Des jetons spéciaux marquent le début et la fin des séquences, séparent les instructions système des messages utilisateur, ou indiquent les limites d’appels d’outils. Ces jetons structurants font partie de chaque interaction LLM, même s’ils sont invisibles pour l’utilisateur.
Comment GAIA utilise Tokenisation
GAIA gère attentivement les budgets de jetons à travers les différents flux de travail de ses agents. Les e-mails et documents longs sont découpés en segments adaptés à la taille des jetons avant l'intégration ou la synthèse. Lors de la construction de ses prompts, GAIA équilibre la quantité de contexte récupéré avec la limite de la fenêtre de contexte du LLM afin de maximiser la densité d'informations tout en restant dans les contraintes du modèle. Le découpage compatible avec les jetons garantit également que la recherche sémantique de GAIA opère sur des unités de sens cohérentes.
Concepts liés
Fenêtre de contexte
La fenêtre de contexte correspond au nombre maximal de jetons qu'un modèle de langage peut traiter en une seule inférence, incluant le prompt système, l'historique de conversation, les documents récupérés et la sortie générée.
Large Language Model (LLM)
Un Large Language Model (LLM) est un modèle d'apprentissage profond entraîné sur d'immenses ensembles de textes, capable de comprendre, générer et raisonner sur le langage humain dans une grande variété de tâches.
Embeddings
Les embeddings sont des représentations vectorielles denses de données (texte, image, audio, etc.) qui capturent le sens et les relations sémantiques dans un espace de grande dimension.
Modèle de langage volumineux (LLM)
Un modèle de langage volumineux (LLM) est une intelligence artificielle entraînée sur d'énormes quantités de textes et capable de comprendre, de générer et de raisonner sur le langage humain avec une remarquable aisance.


