Token
En IA, un token es la unidad básica de texto que procesan los modelos de lenguaje, aproximadamente equivalente a 4 caracteres o ¾ de una palabra promedio en inglés. Los tokens se utilizan para medir la capacidad de las ventanas de contexto y determinar los costos de uso de la API.
Comprendiendo Token
Los modelos de lenguaje no procesan el texto carácter por carácter ni palabra por palabra. En su lugar, operan con tokens: unidades sub-palabra producidas por un tokenizador que segmenta el texto en fragmentos según patrones de frecuencia del corpus de entrenamiento. Palabras cortas y habituales como "the" o "is" suelen ser un solo token, mientras que palabras largas o poco comunes pueden dividirse en dos o más tokens. Entender los tokens es fundamental por dos razones. Primero, cada modelo tiene una ventana de contexto medida en tokens: la cantidad máxima de texto que puede considerar de una vez. GPT-4o tiene una ventana de contexto de 128,000 tokens; Claude 3.5 Sonnet admite hasta 200,000. Segundo, la mayoría de las API de LLM cobran por token consumido (entrada + salida), por lo que la gestión de tokens impacta directamente en el costo. Como regla general: 1,000 tokens ≈ 750 palabras o unos 1,500 caracteres. Un correo electrónico empresarial típico ocupa entre 200 y 400 tokens. Un artículo de investigación extenso puede superar los 8,000 tokens. Al desarrollar aplicaciones de IA, el diseño de prompts implica gestionar cuidadosamente el uso de tokens para maximizar la eficiencia del contexto y controlar los costos.
Cómo GAIA usa Token
GAIA gestiona el uso de tokens de manera eficiente en todas sus llamadas a modelos de lenguaje para equilibrar la capacidad con el costo. Al procesar documentos largos como hilos de correos electrónicos o transcripciones de reuniones, GAIA utiliza estrategias de segmentación y resumen para mantenerse dentro de las ventanas de contexto del modelo. Selecciona el nivel de modelo adecuado — desde modelos ligeros para tareas simples hasta modelos avanzados para razonamientos complejos — en parte según el presupuesto de tokens necesario para cada operación.
Conceptos relacionados
Modelo de lenguaje grande (LLM)
Un modelo de lenguaje grande (LLM) es un modelo de aprendizaje profundo entrenado con enormes conjuntos de datos textuales que puede comprender, generar y razonar sobre el lenguaje humano en una amplia variedad de tareas.
Ventana de contexto
La ventana de contexto es la cantidad máxima de tokens que un modelo de lenguaje puede procesar en una única inferencia, abarcando el prompt del sistema, el historial de conversación, los documentos recuperados y la salida generada.
Ingeniería de prompts
La ingeniería de prompts es la práctica de diseñar y refinar entradas para los modelos de lenguaje de IA, a fin de provocar de manera confiable salidas deseadas, moldeando el comportamiento del modelo sin modificar sus parámetros subyacentes.
Alucinación
La alucinación en IA es el fenómeno en el que un modelo de lenguaje genera información que suena confiable pero que es incorrecta, fabricada o carente de sentido y que no está respaldada por los datos de entrada o de entrenamiento.
Ajuste fino
El ajuste fino es el proceso de tomar un modelo de IA preentrenado y continuar su entrenamiento con un conjunto de datos más pequeño y específico para adaptar su comportamiento a un dominio o aplicación particular.


