Tokenización
La tokenización es el proceso de dividir el texto en unidades más pequeñas llamadas tokens, que sirven como las unidades básicas de entrada para los modelos de lenguaje. Los tokens suelen representar fragmentos de palabras, palabras enteras o signos de puntuación.
Comprendiendo Tokenización
Antes de que un modelo de lenguaje pueda procesar texto, ese texto debe convertirse en tokens. Los LLM modernos utilizan algoritmos de tokenización de subpalabras como Byte Pair Encoding (BPE) o SentencePiece, que equilibran el tamaño del vocabulario con la cobertura. Las palabras comunes reciben un solo token; las palabras poco frecuentes se dividen en varios sub-tokens. En promedio, un token corresponde a unas cuatro letras o a tres cuartas partes de una palabra inglesa. La tokenización importa por tres razones prácticas. Primero, la ventana de contexto se mide en tokens, no en palabras ni caracteres. Una ventana de contexto de 128.000 tokens incluye aproximadamente 96.000 palabras en inglés. Segundo, los costes de API se calculan por token, tanto para entrada como para salida. Tercero, la tokenización afecta cómo los modelos manejan diferentes idiomas. Los tokenizadores son específicos para cada idioma. La biblioteca tiktoken de OpenAI, los tokenizers de Hugging Face y el tokenizer de Anthropic usan distintos vocabularios, por lo que el mismo texto se tokeniza de forma diferente según el modelo. Esto afecta el cálculo de la ventana de contexto y las estimaciones de costo. Los tokens especiales marcan el inicio y el final de las secuencias, separan los mensajes del sistema de los del usuario e indican los límites de las llamadas a herramientas. Estos tokens estructurales forman parte de cada interacción con un LLM, incluso cuando son invisibles para el usuario.
Cómo GAIA usa Tokenización
GAIA gestiona cuidadosamente los presupuestos de tokens a lo largo de los flujos de trabajo de sus agentes. Los correos electrónicos largos y los documentos se dividen en segmentos del tamaño de los tokens antes de ser embebidos o resumidos. Al construir prompts, GAIA equilibra la cantidad de contexto recuperado con el límite de la ventana de contexto del LLM para maximizar la densidad de información sin exceder las restricciones del modelo. El particionado consciente de los tokens también garantiza que la búsqueda semántica de GAIA funcione sobre unidades coherentes de significado.
Conceptos relacionados
Ventana de contexto
La ventana de contexto es la cantidad máxima de tokens que un modelo de lenguaje puede procesar en una única inferencia, abarcando el prompt del sistema, el historial de conversación, los documentos recuperados y la salida generada.
Modelo de lenguaje grande (LLM)
Un modelo de lenguaje grande (LLM) es un modelo de aprendizaje profundo entrenado con enormes conjuntos de datos textuales que puede comprender, generar y razonar sobre el lenguaje humano en una amplia variedad de tareas.
Embeddings
Los embeddings son representaciones densas en vectores numéricos de datos, como texto, imágenes o audio, que capturan significado semántico y relaciones en un espacio de alta dimensión.
Modelo de Lenguaje Grande (LLM)
Un Modelo de Lenguaje Grande (LLM) es un modelo de inteligencia artificial entrenado con grandes cantidades de datos de texto capaz de comprender, generar y razonar sobre el lenguaje humano con notable fluidez.


