Embeddings
Embeddings são representações densas em vetor numérico de dados, como texto, imagens ou áudio, que capturam significados e relações semânticas em um espaço de alta dimensão.
Entendendo Embeddings
Quando um modelo de aprendizado de máquina processa texto, ele precisa trabalhar com números, não com palavras. Os embeddings resolvem isso mapeando palavras, frases ou documentos para listas de números de ponto flutuante, normalmente de 768 a 4096 dimensões. A propriedade fundamental dos embeddings é que conteúdos semanticamente similares ficam numericamente próximos nesse espaço vetorial. "Cachorro" e "filhote" têm embeddings próximos. "Agendar uma reunião" e "marcar uma ligação" também aparecem como vizinhos. Essa propriedade geométrica torna os embeddings úteis para busca semântica, sistemas de recomendação, agrupamentos e classificação. Comparando as distâncias entre embeddings, sistemas de IA conseguem encontrar conteúdos relacionados, identificar duplicatas e entender relações conceituais sem regras explícitas. Modelos de embedding são treinados separadamente dos modelos de geração. Modelos populares incluem o text-embedding-3-large da OpenAI, o embed-v3 da Cohere e modelos open-source como nomic-embed-text. Eles geram vetores de tamanho fixo independentemente do tamanho da entrada, permitindo armazenamento e recuperação eficientes em bancos de dados vetoriais. Em sistemas RAG, os embeddings são a ponte entre as consultas dos usuários e o conhecimento armazenado. A consulta é transformada em embedding, e o banco de dados vetorial encontra os embeddings armazenados mais próximos, trazendo o contexto relevante para a LLM utilizar na resposta.
Como GAIA usa Embeddings
A GAIA gera embeddings para cada e-mail, tarefa, compromisso de calendário e documento armazenados nas suas ferramentas conectadas, e os indexa no ChromaDB. Quando você faz uma busca por informações ou quando a GAIA precisa de contexto para uma tarefa, ela transforma a consulta em embedding e recupera o conteúdo armazenado mais relevante semanticamente. Isso potencializa a capacidade da GAIA de encontrar informações por significado, não apenas por palavras-chave, em todo o seu ambiente digital.
Conceitos relacionados
Embeddings Vetoriais
Embeddings vetoriais são representações numéricas de textos, imagens ou outros dados que capturam o significado semântico, permitindo que máquinas entendam similaridades e relações entre diferentes informações.
Banco de Dados Vetorial
Um banco de dados vetorial é um sistema de banco de dados projetado para armazenar, indexar e consultar embeddings vetoriais de alta dimensão em escala, permitindo buscas rápidas por similaridade em grandes coleções de dados embutidos.
Busca Semântica
Busca semântica é uma técnica de busca que entende o significado e a intenção por trás de uma consulta, retornando resultados com base na relevância conceitual e não apenas pela correspondência exata de palavras-chave.
Geração Aumentada por Recuperação (RAG)
Geração Aumentada por Recuperação (RAG) é uma técnica que aprimora as respostas de LLMs ao primeiro recuperar documentos ou dados relevantes de uma base de conhecimento externa e injetar esse contexto no prompt do modelo.


