Inferência
Inferência é o processo de executar um modelo de IA treinado em novos dados de entrada para gerar previsões, respostas ou decisões, em oposição ao treinamento, que é o processo de construir o modelo a partir dos dados.
Entendendo Inferência
O ciclo de desenvolvimento de IA possui duas fases distintas: treinamento e inferência. O treinamento é quando o modelo aprende processando enormes volumes de dados e ajustando bilhões de parâmetros. A inferência é quando o modelo treinado é implantado para processar novas entradas e gerar saídas em tempo real. Para os usuários de aplicações de IA, todas as interações acontecem durante a inferência. O desempenho da inferência é medido em latência (o quão rápido uma resposta é gerada) e throughput (quantos pedidos podem ser processados simultaneamente). Ambos são críticos para sistemas de IA em produção. Um modelo lento que leva 30 segundos para responder compromete o fluxo de trabalho produtivo. Diversas técnicas melhoram a eficiência da inferência. Quantização reduz a precisão dos pesos do modelo, diminuindo significativamente a necessidade de memória e acelerando o processamento com pouca perda de qualidade. Decodificação especulativa usa um modelo menor para prever múltiplos tokens de uma vez. O batching em GPU processa vários pedidos simultaneamente para aumentar o throughput. Inferência em streaming envia os tokens para o usuário à medida que são gerados, em vez de esperar pela resposta completa. Isso melhora drasticamente a percepção de velocidade e já é o padrão para interfaces modernas de chat com IA. A GAIA transmite respostas do LLM para o frontend em tempo real.
Como GAIA usa Inferência
O GAIA transmite os resultados de inferência de LLM para o frontend em tempo real, oferecendo feedback imediato conforme o modelo gera respostas. Para tarefas de agente em segundo plano como triagem de e-mails ou execução de fluxos de trabalho, o GAIA realiza a inferência de forma assíncrona, para que tarefas longas não bloqueiem a interface. A escolha do provedor de LLM também permite equilibrar custo de inferência com qualidade e velocidade de resposta.
Conceitos relacionados
Large Language Model (LLM)
Um Modelo de Linguagem de Grande Porte (LLM) é um modelo de deep learning treinado com enormes conjuntos de textos capaz de compreender, gerar e raciocinar sobre linguagem humana em uma ampla variedade de tarefas.
Modelo Fundamental
Um modelo fundamental é um grande modelo de IA treinado em larga escala com dados amplos, que pode ser adaptado para uma ampla variedade de tarefas por meio de ajuste fino, prompts ou integração em arquiteturas de aplicações.
Modelo de Linguagem de Grande Porte (LLM)
Um Modelo de Linguagem de Grande Porte (LLM) é um modelo de inteligência artificial treinado em enormes quantidades de dados textuais, capaz de compreender, gerar e raciocinar sobre a linguagem humana com grande fluência.
Janela de Contexto
A janela de contexto é o número máximo de tokens que um modelo de linguagem pode processar em uma única chamada de inferência, incluindo o prompt do sistema, histórico da conversa, documentos recuperados e saída gerada.


