Janela de Contexto
A janela de contexto é o número máximo de tokens que um modelo de linguagem pode processar em uma única chamada de inferência, incluindo o prompt do sistema, histórico da conversa, documentos recuperados e saída gerada.
Entendendo Janela de Contexto
A janela de contexto define a memória de trabalho de um modelo de linguagem. Tudo o que o modelo sabe sobre a tarefa atual, incluindo instruções, histórico de conversas, documentos recuperados e resultados de ferramentas, deve caber dentro dessa janela. Conteúdo fora da janela fica, na prática, invisível ao modelo durante a inferência. As janelas de contexto cresceram bastante. Os primeiros modelos GPT tinham limites de 4.096 tokens. Modelos modernos suportam 128.000 (GPT-4o), 200.000 (Claude 3.5) e até mais de 1.000.000 tokens (Gemini 1.5 Pro). Essas janelas expandidas permitem encaixar bases de código inteiras, livros ou longos históricos de conversas em um único contexto. Apesar desse avanço, as janelas de contexto ainda têm limites práticos. Processar uma janela de contexto completa é mais caro e lento do que uma menor. Pesquisas mostram também que a atenção dos LLMs pode degradar para conteúdos localizados no meio de contextos muito longos, fenômeno conhecido como 'perdido no meio'. Estratégias de recuperação que selecionam apenas o conteúdo mais relevante superam abordagens ingênuas de incluir tudo. Para agentes de IA como a GAIA, gerenciar a janela de contexto é um desafio de engenharia. Cada chamada de ferramenta consome tokens de entrada e saída. Históricos longos de conversas vão se acumulando. Documentos recuperados acrescentam volume. O gerenciamento eficiente do contexto, usando resumos, recuperação seletiva e compactação de conversas, é essencial para o desempenho confiável do agente.
Como GAIA usa Janela de Contexto
A GAIA gerencia ativamente as janelas de contexto para manter o desempenho confiável dos agentes. Ela utiliza recuperação seletiva via RAG para incluir apenas o contexto mais relevante, resume históricos longos de conversas para comprimir conteúdos antigos e divide grandes documentos em partes menores antes do processamento. Esse gerenciamento cuidadoso permite que a GAIA lide com fluxos de trabalho complexos e de múltiplas etapas sem atingir limites de tokens ou comprometer a qualidade do raciocínio.
Conceitos relacionados
Tokenização
Tokenização é o processo de dividir o texto em unidades menores chamadas tokens, que servem como unidades básicas de entrada para modelos de linguagem. Tokens normalmente representam fragmentos de palavras, palavras inteiras ou pontuação.
Geração Aumentada por Recuperação (RAG)
Geração Aumentada por Recuperação (RAG) é uma técnica que aprimora as respostas de LLMs ao primeiro recuperar documentos ou dados relevantes de uma base de conhecimento externa e injetar esse contexto no prompt do modelo.
Large Language Model (LLM)
Um Modelo de Linguagem de Grande Porte (LLM) é um modelo de deep learning treinado com enormes conjuntos de textos capaz de compreender, gerar e raciocinar sobre linguagem humana em uma ampla variedade de tarefas.
Modelo de Linguagem de Grande Porte (LLM)
Um Modelo de Linguagem de Grande Porte (LLM) é um modelo de inteligência artificial treinado em enormes quantidades de dados textuais, capaz de compreender, gerar e raciocinar sobre a linguagem humana com grande fluência.


