Token
In AI, a token is the basic unit of text that language models process — roughly equivalent to 4 characters or ¾ of an average English word. Tokens are used to measure context window capacity and determine API usage costs.
Comprendre Token
Language models do not process text character-by-character or word-by-word. Instead, they operate on tokens — sub-word units produced by a tokenizer that breaks text into chunks based on frequency patterns in the training corpus. Common short words like 'the' or 'is' are typically single tokens, while longer or rare words may be split into two or more tokens. Understanding tokens is essential for two reasons. First, every model has a context window measured in tokens — the maximum amount of text it can consider at once. GPT-4o has a 128,000-token context window; Claude 3.5 Sonnet supports 200,000. Second, most LLM APIs charge per token consumed (input + output), so token awareness directly impacts cost. As a rough rule: 1,000 tokens ≈ 750 words, or about 1,500 characters. A typical business email is 200–400 tokens. A long research paper may exceed 8,000 tokens. When building AI applications, prompt design often involves carefully managing token usage to maximize context efficiency while controlling costs.
Comment GAIA utilise Token
GAIA manages token usage efficiently across all its language model calls to balance capability with cost. When processing long documents like email threads or meeting transcripts, GAIA uses chunking and summarization strategies to stay within model context windows. It selects the appropriate model tier — from lightweight models for simple tasks to frontier models for complex reasoning — partly based on the token budget required for each operation.
Concepts liés
Large Language Model (LLM)
Un Large Language Model (LLM) est un modèle d'apprentissage profond entraîné sur d'immenses ensembles de textes, capable de comprendre, générer et raisonner sur le langage humain dans une grande variété de tâches.
Fenêtre de contexte
La fenêtre de contexte correspond au nombre maximal de jetons qu'un modèle de langage peut traiter en une seule inférence, incluant le prompt système, l'historique de conversation, les documents récupérés et la sortie générée.
Ingénierie de prompt
L’ingénierie de prompt est la pratique qui consiste à concevoir et affiner les instructions données à des modèles linguistiques d’IA afin d’obtenir de manière fiable les résultats souhaités, en influençant leur comportement sans modifier leurs paramètres internes.
Hallucination
L’hallucination d’IA est un phénomène où un modèle de langage produit des informations fausses, fabriquées ou incohérentes tout en semblant fiable, sans que celles-ci soient issues des données d’entrée ou d’entraînement.
Ajustement fin
L'ajustement fin est le processus qui consiste à reprendre l'entraînement d'un modèle d'IA pré-entraîné sur un jeu de données plus petit et spécifique à une tâche afin d'adapter son comportement à un domaine ou une application particuliers.


