Ventana de contexto
La ventana de contexto es la cantidad máxima de tokens que un modelo de lenguaje puede procesar en una única inferencia, abarcando el prompt del sistema, el historial de conversación, los documentos recuperados y la salida generada.
Comprendiendo Ventana de contexto
La ventana de contexto define la memoria de trabajo de un modelo de lenguaje. Todo lo que el modelo sabe sobre la tarea actual, incluidas instrucciones, historial de conversación, documentos recuperados y resultados de herramientas, debe caber dentro de esta ventana. El contenido que queda fuera de la ventana es, en efecto, invisible para el modelo durante esa inferencia. Las ventanas de contexto han crecido notablemente. Los primeros modelos GPT tenían límites de 4,096 tokens. Los modelos modernos admiten 128,000 (GPT-4o), 200,000 (Claude 3.5) y hasta más de 1,000,000 tokens (Gemini 1.5 Pro). Estas ventanas expandidas permiten incluir bases de código completas, libros o largos historiales de conversación en un solo contexto. A pesar de este crecimiento, las ventanas de contexto aún tienen límites prácticos. Procesar una ventana de contexto completa es más caro y lento que una más corta. Además, investigaciones muestran que la atención de los LLM puede degradarse para el contenido que se encuentra en el medio de contextos muy largos, un fenómeno conocido como 'perdido en el medio'. Las estrategias de recuperación que seleccionan el contenido más relevante superan a los enfoques que incluyen todo. Para agentes de IA como GAIA, gestionar la ventana de contexto es un reto de ingeniería. Cada llamada de herramienta consume tokens tanto para su entrada como para su salida. Los historiales de conversación extensos se van acumulando. Los documentos recuperados añaden volumen. Una gestión eficaz del contexto, a través de resumen, recuperación selectiva y compresión de la conversación, es esencial para el rendimiento fiable de los agentes.
Cómo GAIA usa Ventana de contexto
GAIA gestiona activamente las ventanas de contexto para mantener un rendimiento fiable de los agentes. Utiliza recuperación RAG selectiva para incluir solo el contexto más relevante, resume historiales conversacionales largos para comprimir el contenido antiguo y fragmenta grandes documentos antes de procesarlos. Esta cuidadosa gestión del contexto permite a GAIA manejar flujos de trabajo complejos de varios pasos sin alcanzar los límites de tokens ni degradar la calidad del razonamiento.
Conceptos relacionados
Tokenización
La tokenización es el proceso de dividir el texto en unidades más pequeñas llamadas tokens, que sirven como las unidades básicas de entrada para los modelos de lenguaje. Los tokens suelen representar fragmentos de palabras, palabras enteras o signos de puntuación.
Generación Aumentada por Recuperación (RAG)
La Generación Aumentada por Recuperación (RAG) es una técnica que mejora las respuestas de LLM recuperando primero documentos o datos relevantes de una base de conocimiento externa e inyectando ese contexto en el prompt del modelo.
Modelo de lenguaje grande (LLM)
Un modelo de lenguaje grande (LLM) es un modelo de aprendizaje profundo entrenado con enormes conjuntos de datos textuales que puede comprender, generar y razonar sobre el lenguaje humano en una amplia variedad de tareas.
Modelo de Lenguaje Grande (LLM)
Un Modelo de Lenguaje Grande (LLM) es un modelo de inteligencia artificial entrenado con grandes cantidades de datos de texto capaz de comprender, generar y razonar sobre el lenguaje humano con notable fluidez.


