Embedding
Um embedding é uma representação vetorial numérica densa de texto (ou outros dados) que codifica significado semântico, de modo que conceitos semelhantes fiquem próximos no espaço vetorial.
Entendendo Embedding
Embeddings são a ponte entre a linguagem humana e o cálculo matemático. Uma palavra como "reunião" não tem significado para o computador como texto simples. Como vetor dimensional de 768 ou 1536 elementos, ela pode ser comparada matematicamente a outros vetores. Embeddings codificam o significado, fazendo com que "reunião" e "conferência" fiquem próximas no espaço vetorial, enquanto "reunião" e "banco de dados" estejam distantes. O poder do embedding está na busca por similaridade semântica. Dada uma consulta como "e-mails sobre o lançamento do produto", um modelo de embedding converte a consulta em vetor e busca todos os embeddings de e-mail armazenados que sejam matematicamente semelhantes — trazendo à tona e-mails relevantes sem depender de palavras-chave exatas. Isso capta o significado, não apenas padrões textuais. Modelos de embedding são treinados separadamente dos modelos de linguagem e otimizados especificamente para alta qualidade de representação. Modelos como os text-embedding-3 da OpenAI, embed da Cohere e soluções open-source como sentence-transformers são opções populares. Embeddings geralmente possuem de 768 a 3072 dimensões. Aplicações que usam embeddings armazenam o conteúdo em bancos de dados vetoriais (ChromaDB, Pinecone, Weaviate), o que permite buscas aproximadas rápidas entre grandes coleções de embeddings.
Como GAIA usa Embedding
GAIA incorpora todo o conteúdo ingerido — e-mails, tarefas, eventos de calendário, documentos — no ChromaDB, seu banco de dados vetorial. Quando a GAIA precisa encontrar um contexto relevante (por exemplo, "sobre o que discutimos no orçamento do 4º trimestre?"), ela converte a consulta em um embedding e pesquisa no ChromaDB por conteúdo semanticamente semelhante, em vez de buscar por palavras-chave, trazendo itens relevantes mesmo que a frase exata seja diferente.
Conceitos relacionados
Embeddings Vetoriais
Embeddings vetoriais são representações numéricas de textos, imagens ou outros dados que capturam o significado semântico, permitindo que máquinas entendam similaridades e relações entre diferentes informações.
Banco de Dados Vetorial
Um banco de dados vetorial é um sistema de banco de dados projetado para armazenar, indexar e consultar embeddings vetoriais de alta dimensão em escala, permitindo buscas rápidas por similaridade em grandes coleções de dados embutidos.
Busca Semântica
Busca semântica é uma técnica de busca que entende o significado e a intenção por trás de uma consulta, retornando resultados com base na relevância conceitual e não apenas pela correspondência exata de palavras-chave.
Geração Aumentada por Recuperação (RAG)
Geração Aumentada por Recuperação (RAG) é uma técnica que aprimora as respostas de LLMs ao primeiro recuperar documentos ou dados relevantes de uma base de conhecimento externa e injetar esse contexto no prompt do modelo.
Memória Baseada em Grafo
Memória baseada em grafo é uma arquitetura de memória de IA que armazena informações como nós e relações interconectados, permitindo compreensão contextual rica e conhecimento persistente ao longo das interações.


