Saída Estruturada
Saída estruturada é uma técnica que limita um LLM a responder em um formato predefinido — normalmente JSON ou XML — permitindo a análise programática confiável das respostas do modelo, em vez de texto livre.
Entendendo Saída Estruturada
LLMs geram naturalmente textos livres, o que é poderoso para conversas, mas problemático para aplicações que precisam analisar e agir com base nas respostas dos modelos. Se um aplicativo precisa extrair o título de uma tarefa, data de vencimento e prioridade de uma resposta do modelo, um texto não estruturado exige uma análise frágil com regex que pode falhar se o modelo variar seu formato. A saída estruturada resolve isso ao limitar a resposta do modelo a um esquema específico. OpenAI, Anthropic e Google oferecem modos nativos de saída estruturada que garantem que as respostas estejam conforme um esquema JSON fornecido. A modelagem ainda é feita livremente — a saída estruturada apenas limita o formato da resposta. A saída estruturada é essencial para o desenvolvimento confiável de aplicações de IA. Ela permite: extração consistente de campos específicos das respostas do modelo, validação de que os campos obrigatórios estão presentes e tipados corretamente, integração consistente com sistemas posteriores e depuração facilitada quando ocorre algum erro. Pydantic (em Python) e Zod (em TypeScript) são bibliotecas populares de definição de esquemas que funcionam bem com APIs de saída estruturada, fornecendo análise e validação type-safe das respostas dos modelos.
Como GAIA usa Saída Estruturada
A GAIA utiliza amplamente a saída estruturada para extrair informações de respostas de LLM de forma confiável. Ao analisar e-mails para tarefas, extrair detalhes de eventos de calendário ou determinar a prioridade de ações, a GAIA restringe o modelo a esquemas JSON estruturados validados pelo Pydantic. Isso garante um processamento consistente a jusante, sem a fragilidade da análise de texto livre.
Conceitos relacionados
Chamada de Função
Chamada de função é um recurso de modelos de IA que permite gerar invocações estruturadas e legíveis por máquina de funções predefinidas, possibilitando que sistemas de IA acessem APIs e ferramentas externas com os argumentos corretos.
Uso de Ferramentas
O uso de ferramentas é a habilidade dos agentes de IA de invocar funções, APIs, bancos de dados e serviços externos para recuperar informações ou executar ações no mundo real, indo além da simples geração de texto.
Engenharia de Prompt
Engenharia de prompt é a prática de projetar e refinar entradas para modelos de linguagem de IA, a fim de obter respostas desejadas de forma consistente, moldando o comportamento do modelo sem modificar seus pesos.
Large Language Model (LLM)
Um Modelo de Linguagem de Grande Porte (LLM) é um modelo de deep learning treinado com enormes conjuntos de textos capaz de compreender, gerar e raciocinar sobre linguagem humana em uma ampla variedade de tarefas.
Agent Loop
Um agent loop é o ciclo de execução iterativa de um agente de IA no qual ele analisa o estado atual, seleciona e executa uma ação (frequentemente uma chamada de ferramenta), observa o resultado e repete até a tarefa ser concluída ou uma condição de parada ser alcançada.


