GAIA Logo
PricingManifesto
Accueil/Glossaire/Tokenisation

Tokenisation

La tokenisation est le processus qui consiste à découper un texte en unités plus petites appelées jetons, qui constituent les éléments de base en entrée pour les modèles de langage. Les jetons représentent généralement des fragments de mots, des mots entiers ou des signes de ponctuation.

Comprendre Tokenisation

Avant qu’un modèle de langage puisse traiter un texte, celui-ci doit être converti en jetons. Les LLM modernes utilisent des algorithmes de tokenisation en sous-mots comme Byte Pair Encoding (BPE) ou SentencePiece, qui équilibrent la taille du vocabulaire et la couverture linguistique. Les mots courants obtiennent un jeton unique ; les mots rares sont divisés en plusieurs sous-parties. En moyenne, un jeton correspond à environ quatre caractères ou aux trois quarts d’un mot anglais. La tokenisation est importante pour trois raisons pratiques. Premièrement, la fenêtre de contexte est mesurée en jetons, et non en mots ou en caractères. Une fenêtre de contexte de 128 000 jetons contient environ 96 000 mots anglais. Deuxièmement, les coûts des API sont calculés au jeton, aussi bien pour l’entrée que pour la sortie. Troisièmement, la tokenisation influence la façon dont les modèles traitent différentes langues. Les tokenizeurs sont spécifiques à chaque langue. La bibliothèque tiktoken d’OpenAI, les tokenizeurs de Hugging Face et celui d’Anthropic utilisent chacun des vocabulaires différents ; un même texte est donc découpé différemment selon les modèles. Cela modifie le calcul de la fenêtre de contexte et les estimations de coût. Des jetons spéciaux marquent le début et la fin des séquences, séparent les instructions système des messages utilisateur, ou indiquent les limites d’appels d’outils. Ces jetons structurants font partie de chaque interaction LLM, même s’ils sont invisibles pour l’utilisateur.

Comment GAIA utilise Tokenisation

GAIA gère attentivement les budgets de jetons à travers les différents flux de travail de ses agents. Les e-mails et documents longs sont découpés en segments adaptés à la taille des jetons avant l'intégration ou la synthèse. Lors de la construction de ses prompts, GAIA équilibre la quantité de contexte récupéré avec la limite de la fenêtre de contexte du LLM afin de maximiser la densité d'informations tout en restant dans les contraintes du modèle. Le découpage compatible avec les jetons garantit également que la recherche sémantique de GAIA opère sur des unités de sens cohérentes.

Concepts liés

Fenêtre de contexte

La fenêtre de contexte correspond au nombre maximal de jetons qu'un modèle de langage peut traiter en une seule inférence, incluant le prompt système, l'historique de conversation, les documents récupérés et la sortie générée.

Large Language Model (LLM)

Un Large Language Model (LLM) est un modèle d'apprentissage profond entraîné sur d'immenses ensembles de textes, capable de comprendre, générer et raisonner sur le langage humain dans une grande variété de tâches.

Embeddings

Les embeddings sont des représentations vectorielles denses de données (texte, image, audio, etc.) qui capturent le sens et les relations sémantiques dans un espace de grande dimension.

Modèle de langage volumineux (LLM)

Un modèle de langage volumineux (LLM) est une intelligence artificielle entraînée sur d'énormes quantités de textes et capable de comprendre, de générer et de raisonner sur le langage humain avec une remarquable aisance.

Questions fréquentes

Cela dépend du LLM que vous choisissez de configurer avec GAIA. Selon le fournisseur et le modèle, la fenêtre de contexte varie de 8 000 à plus de 1 000 000 de jetons. L'architecture de GAIA utilise le découpage et la récupération pour fonctionner efficacement même lorsque les ensembles de documents dépassent la capacité de la fenêtre de contexte.

Explorer plus

Comparer GAIA avec les alternatives

Découvrez comment GAIA se compare aux autres outils de productivité IA

GAIA pour votre rôle

Découvrez comment GAIA aide les professionnels dans différents rôles

Wallpaper webpWallpaper png
Stopdoingeverythingyourself.
Join thousands of professionals who gave their grunt work to GAIA.
Twitter IconWhatsapp IconDiscord IconGithub Icon
The Experience Company Logo
Smarter, quieter, better.
Product
DownloadFeaturesGet StartedIntegration MarketplaceRoadmapUse Cases
Resources
AlternativesAutomation CombosBlogCompareDocumentationGlossaryInstall CLIRelease NotesRequest a FeatureRSS FeedStatus
Built For
Startup FoundersSoftware DevelopersSales ProfessionalsProduct ManagersEngineering ManagersAgency Owners
View All Roles
Company
AboutBrandingContactManifestoTools We Love
Socials
DiscordGitHubLinkedInTwitterWhatsAppYouTube
Discord IconTwitter IconGithub IconWhatsapp IconYoutube IconLinkedin Icon
Copyright © 2025 The Experience Company. All rights reserved.
Terms of Use
Privacy Policy