Pourquoi la tokenisation a-t-elle un impact sur le coût de l'IA ?

La plupart des APIs LLM facturent en fonction du nombre de jetons traités. Des prompts longs, accompagnés d'un contexte récupéré important, coûtent plus cher par requête. GAIA optimise l'utilisation des jetons en ne récupérant que les segments de contexte les plus pertinents, plutôt qu'en incluant toutes les données disponibles, équilibrant ainsi la qualité des réponses et l'efficacité des coûts.

Tokenisation

La tokenisation est le processus qui consiste à découper un texte en unités plus petites appelées jetons, qui constituent les éléments de base en entrée pour les modèles de langage. Les jetons représentent généralement des fragments de mots, des mots entiers ou des signes de ponctuation.

Comprendre Tokenisation

Avant qu’un modèle de langage puisse traiter un texte, celui-ci doit être converti en jetons. Les LLM modernes utilisent des algorithmes de tokenisation en sous-mots comme Byte Pair Encoding (BPE) ou SentencePiece, qui équilibrent la taille du vocabulaire et la couverture linguistique. Les mots courants obtiennent un jeton unique ; les mots rares sont divisés en plusieurs sous-parties. En moyenne, un jeton correspond à environ quatre caractères ou aux trois quarts d’un mot anglais. La tokenisation est importante pour trois raisons pratiques. Premièrement, la fenêtre de contexte est mesurée en jetons, et non en mots ou en caractères. Une fenêtre de contexte de 128 000 jetons contient environ 96 000 mots anglais. Deuxièmement, les coûts des API sont calculés au jeton, aussi bien pour l’entrée que pour la sortie. Troisièmement, la tokenisation influence la façon dont les modèles traitent différentes langues. Les tokenizeurs sont spécifiques à chaque langue. La bibliothèque tiktoken d’OpenAI, les tokenizeurs de Hugging Face et celui d’Anthropic utilisent chacun des vocabulaires différents ; un même texte est donc découpé différemment selon les modèles. Cela modifie le calcul de la fenêtre de contexte et les estimations de coût. Des jetons spéciaux marquent le début et la fin des séquences, séparent les instructions système des messages utilisateur, ou indiquent les limites d’appels d’outils. Ces jetons structurants font partie de chaque interaction LLM, même s’ils sont invisibles pour l’utilisateur.

Comment GAIA utilise Tokenisation

GAIA gère attentivement les budgets de jetons à travers les différents flux de travail de ses agents. Les e-mails et documents longs sont découpés en segments adaptés à la taille des jetons avant l'intégration ou la synthèse. Lors de la construction de ses prompts, GAIA équilibre la quantité de contexte récupéré avec la limite de la fenêtre de contexte du LLM afin de maximiser la densité d'informations tout en restant dans les contraintes du modèle. Le découpage compatible avec les jetons garantit également que la recherche sémantique de GAIA opère sur des unités de sens cohérentes.

Concepts liés

Fenêtre de contexte

La fenêtre de contexte correspond au nombre maximal de jetons qu'un modèle de langage peut traiter en une seule inférence, incluant le prompt système, l'historique de conversation, les documents récupérés et la sortie générée.

Large Language Model (LLM)

Un Large Language Model (LLM) est un modèle d'apprentissage profond entraîné sur d'immenses ensembles de textes, capable de comprendre, générer et raisonner sur le langage humain dans une grande variété de tâches.

Embeddings

Les embeddings sont des représentations vectorielles denses de données (texte, image, audio, etc.) qui capturent le sens et les relations sémantiques dans un espace de grande dimension.

Modèle de langage volumineux (LLM)

Un modèle de langage volumineux (LLM) est une intelligence artificielle entraînée sur d'énormes quantités de textes et capable de comprendre, de générer et de raisonner sur le langage humain avec une remarquable aisance.

Questions fréquentes

Cela dépend du LLM que vous choisissez de configurer avec GAIA. Selon le fournisseur et le modèle, la fenêtre de contexte varie de 8 000 à plus de 1 000 000 de jetons. L'architecture de GAIA utilise le découpage et la récupération pour fonctionner efficacement même lorsque les ensembles de documents dépassent la capacité de la fenêtre de contexte.

Tokenisation

Comprendre Tokenisation

Comment GAIA utilise Tokenisation

Concepts liés

Fenêtre de contexte

Large Language Model (LLM)

Embeddings

Modèle de langage volumineux (LLM)

Questions fréquentes

Explorer plus

Comparer GAIA avec les alternatives

GAIA pour votre rôle

Tokenisation

Comprendre Tokenisation

Comment GAIA utilise Tokenisation

Concepts liés

Fenêtre de contexte

Large Language Model (LLM)

Embeddings

Modèle de langage volumineux (LLM)

Questions fréquentes

Explorer plus

Comparer GAIA avec les alternatives

GAIA pour votre rôle

Comprendre Tokenisation

Comment GAIA utilise Tokenisation

Concepts liés

Fenêtre de contexte

Large Language Model (LLM)

Embeddings

Modèle de langage volumineux (LLM)

Questions fréquentes

Combien de jetons le LLM de GAIA peut-il traiter en une seule fois ?

Pourquoi la tokenisation a-t-elle un impact sur le coût de l'IA ?

Explorer plus

Comparer GAIA avec les alternatives

GAIA pour votre rôle

Comprendre Tokenisation

Comment GAIA utilise Tokenisation

Concepts liés

Fenêtre de contexte

Large Language Model (LLM)

Embeddings

Modèle de langage volumineux (LLM)

Questions fréquentes

Combien de jetons le LLM de GAIA peut-il traiter en une seule fois ?

Pourquoi la tokenisation a-t-elle un impact sur le coût de l'IA ?

Explorer plus

Comparer GAIA avec les alternatives

GAIA pour votre rôle