Geração Aumentada por Recuperação (RAG)
Geração Aumentada por Recuperação (RAG) é uma técnica que aprimora as respostas de LLMs ao primeiro recuperar documentos ou dados relevantes de uma base de conhecimento externa e injetar esse contexto no prompt do modelo.
Entendendo Geração Aumentada por Recuperação (RAG)
LLMs têm uma limitação fundamental: seu conhecimento é congelado no momento do treinamento e limitado pela janela de contexto. O RAG resolve ambos os problemas ao adicionar uma etapa de recuperação antes da geração. Quando uma consulta é feita, um sistema de recuperação busca numa base de conhecimento externa conteúdos relevantes, e os documentos recuperados são injetados no prompt do LLM como contexto. O LLM então gera uma resposta baseada nas informações recuperadas. A etapa de recuperação normalmente usa busca semântica sobre um banco de dados vetorial. A consulta é embutida e o banco de dados vetorial encontra os embeddings armazenados mais similares, retornando os documentos originais. Isso permite que o LLM responda perguntas sobre informações nas quais ele nunca foi treinado, como seus e-mails específicos, documentos da empresa ou dados recentes. O RAG reduz drasticamente as alucinações em tarefas que requerem conhecimento, pois o modelo recebe documentos de referência em vez de se basear apenas em parâmetros memorizados. As respostas também podem citar fontes, tornando-as verificáveis. Técnicas avançadas de RAG incluem busca híbrida (combinando similaridade vetorial com busca por palavras-chave), reclassificação dos documentos recuperados por relevância e recuperação multi-hop, onde o modelo recupera informações de forma iterativa em várias etapas. Esses avanços aumentam significativamente a precisão para perguntas complexas.
Como GAIA usa Geração Aumentada por Recuperação (RAG)
A GAIA implementa o RAG para fundamentar suas respostas nos seus próprios dados. Quando você faz uma pergunta ou quando a GAIA precisa de contexto para uma tarefa, ela recupera e-mails, tarefas e documentos relevantes do ChromaDB antes de gerar uma resposta. Isso significa que a GAIA pode responder a perguntas como "O que decidimos sobre o cronograma do projeto?" realmente pesquisando seus e-mails e atas de reuniões, em vez de apenas adivinhar com base em conhecimento geral.
Conceitos relacionados
Banco de Dados Vetorial
Um banco de dados vetorial é um sistema de banco de dados projetado para armazenar, indexar e consultar embeddings vetoriais de alta dimensão em escala, permitindo buscas rápidas por similaridade em grandes coleções de dados embutidos.
Embeddings
Embeddings são representações densas em vetor numérico de dados, como texto, imagens ou áudio, que capturam significados e relações semânticas em um espaço de alta dimensão.
Busca Semântica
Busca semântica é uma técnica de busca que entende o significado e a intenção por trás de uma consulta, retornando resultados com base na relevância conceitual e não apenas pela correspondência exata de palavras-chave.
Janela de Contexto
A janela de contexto é o número máximo de tokens que um modelo de linguagem pode processar em uma única chamada de inferência, incluindo o prompt do sistema, histórico da conversa, documentos recuperados e saída gerada.
Modelo de Linguagem de Grande Porte (LLM)
Um Modelo de Linguagem de Grande Porte (LLM) é um modelo de inteligência artificial treinado em enormes quantidades de dados textuais, capaz de compreender, gerar e raciocinar sobre a linguagem humana com grande fluência.


