GAIA Logo
PricingManifesto
Inicio/Glosario/Tokenización

Tokenización

La tokenización es el proceso de dividir el texto en unidades más pequeñas llamadas tokens, que sirven como las unidades básicas de entrada para los modelos de lenguaje. Los tokens suelen representar fragmentos de palabras, palabras enteras o signos de puntuación.

Comprendiendo Tokenización

Antes de que un modelo de lenguaje pueda procesar texto, ese texto debe convertirse en tokens. Los LLM modernos utilizan algoritmos de tokenización de subpalabras como Byte Pair Encoding (BPE) o SentencePiece, que equilibran el tamaño del vocabulario con la cobertura. Las palabras comunes reciben un solo token; las palabras poco frecuentes se dividen en varios sub-tokens. En promedio, un token corresponde a unas cuatro letras o a tres cuartas partes de una palabra inglesa. La tokenización importa por tres razones prácticas. Primero, la ventana de contexto se mide en tokens, no en palabras ni caracteres. Una ventana de contexto de 128.000 tokens incluye aproximadamente 96.000 palabras en inglés. Segundo, los costes de API se calculan por token, tanto para entrada como para salida. Tercero, la tokenización afecta cómo los modelos manejan diferentes idiomas. Los tokenizadores son específicos para cada idioma. La biblioteca tiktoken de OpenAI, los tokenizers de Hugging Face y el tokenizer de Anthropic usan distintos vocabularios, por lo que el mismo texto se tokeniza de forma diferente según el modelo. Esto afecta el cálculo de la ventana de contexto y las estimaciones de costo. Los tokens especiales marcan el inicio y el final de las secuencias, separan los mensajes del sistema de los del usuario e indican los límites de las llamadas a herramientas. Estos tokens estructurales forman parte de cada interacción con un LLM, incluso cuando son invisibles para el usuario.

Cómo GAIA usa Tokenización

GAIA gestiona cuidadosamente los presupuestos de tokens a lo largo de los flujos de trabajo de sus agentes. Los correos electrónicos largos y los documentos se dividen en segmentos del tamaño de los tokens antes de ser embebidos o resumidos. Al construir prompts, GAIA equilibra la cantidad de contexto recuperado con el límite de la ventana de contexto del LLM para maximizar la densidad de información sin exceder las restricciones del modelo. El particionado consciente de los tokens también garantiza que la búsqueda semántica de GAIA funcione sobre unidades coherentes de significado.

Conceptos relacionados

Ventana de contexto

La ventana de contexto es la cantidad máxima de tokens que un modelo de lenguaje puede procesar en una única inferencia, abarcando el prompt del sistema, el historial de conversación, los documentos recuperados y la salida generada.

Modelo de lenguaje grande (LLM)

Un modelo de lenguaje grande (LLM) es un modelo de aprendizaje profundo entrenado con enormes conjuntos de datos textuales que puede comprender, generar y razonar sobre el lenguaje humano en una amplia variedad de tareas.

Embeddings

Los embeddings son representaciones densas en vectores numéricos de datos, como texto, imágenes o audio, que capturan significado semántico y relaciones en un espacio de alta dimensión.

Modelo de Lenguaje Grande (LLM)

Un Modelo de Lenguaje Grande (LLM) es un modelo de inteligencia artificial entrenado con grandes cantidades de datos de texto capaz de comprender, generar y razonar sobre el lenguaje humano con notable fluidez.

Preguntas frecuentes

Esto depende de qué LLM configures para que use GAIA. Las ventanas de contexto varían desde 8,000 hasta más de 1,000,000 de tokens, según el proveedor y el modelo. La arquitectura de GAIA usa segmentación y recuperación para funcionar de manera efectiva incluso cuando las colecciones de documentos superan cualquier ventana de contexto.

Explorar más

Comparar GAIA con alternativas

Vea cómo GAIA se compara con otras herramientas de productividad de IA

GAIA para tu rol

Descubre cómo GAIA ayuda a profesionales en diferentes roles

Wallpaper webpWallpaper png
Stopdoingeverythingyourself.
Join thousands of professionals who gave their grunt work to GAIA.
Twitter IconWhatsapp IconDiscord IconGithub Icon
The Experience Company Logo
Smarter, quieter, better.
Product
DownloadFeaturesGet StartedIntegration MarketplaceRoadmapUse Cases
Resources
AlternativesAutomation CombosBlogCompareDocumentationGlossaryInstall CLIRelease NotesRequest a FeatureRSS FeedStatus
Built For
Startup FoundersSoftware DevelopersSales ProfessionalsProduct ManagersEngineering ManagersAgency Owners
View All Roles
Company
AboutBrandingContactManifestoTools We Love
Socials
DiscordGitHubLinkedInTwitterWhatsAppYouTube
Discord IconTwitter IconGithub IconWhatsapp IconYoutube IconLinkedin Icon
Copyright © 2025 The Experience Company. All rights reserved.
Terms of Use
Privacy Policy