Banco de Dados Vetorial
Um banco de dados vetorial é um sistema de banco de dados projetado para armazenar, indexar e consultar embeddings vetoriais de alta dimensão em escala, permitindo buscas rápidas por similaridade em grandes coleções de dados embutidos.
Entendendo Banco de Dados Vetorial
Bancos de dados tradicionais armazenam dados estruturados em tabelas e os consultam por filtros de correspondência exata. Bancos de dados vetoriais funcionam de forma diferente: armazenam vetores de ponto flutuante (embeddings) e os consultam por similaridade usando métricas de distância como similaridade cosseno ou distância Euclidiana. Isso os torna infraestrutura essencial para aplicações de IA que precisam de busca semântica, recomendação ou memória. O principal desafio que os bancos de dados vetoriais resolvem é o problema do "vizinho mais próximo" em escala. Encontrar os vetores mais próximos de um vetor de consulta entre milhões de embeddings armazenados requer algoritmos de indexação especializados. Algoritmos de Vizinho Mais Próximo Aproximado (ANN), como HNSW e IVF, tornam isso rápido ao trocar um pouco de precisão por um grande ganho em velocidade. Bancos de dados vetoriais populares incluem ChromaDB, Pinecone, Weaviate, Qdrant e pgvector (uma extensão do PostgreSQL). Eles diferem quanto ao modelo de implantação, escalabilidade, capacidades de filtragem e facilidade de uso. O ChromaDB é especialmente popular para implantações locais e self-hosted devido à sua simplicidade. Em sistemas RAG, o banco de dados vetorial guarda os embeddings da sua base de conhecimento. No momento da consulta, o banco encontra os embeddings mais relevantes e retorna os documentos originais para o LLM usar como contexto. Assim, os sistemas de IA têm acesso a conhecimento específico sem precisar incluir tudo na janela de contexto do LLM.
Como GAIA usa Banco de Dados Vetorial
A GAIA utiliza o ChromaDB como seu banco de dados vetorial para armazenar e consultar embeddings dos seus e-mails, tarefas, documentos e eventos de calendário. Quando a GAIA precisa encontrar contexto relevante para uma tarefa ou responder a uma busca, o ChromaDB realiza uma busca por similaridade rápida em todo o conteúdo embutido. Isso dá à GAIA uma memória persistente e pesquisável de todo o seu espaço de trabalho digital, que fica mais inteligente conforme mais dados são indexados.
Conceitos relacionados
Embeddings
Embeddings são representações densas em vetor numérico de dados, como texto, imagens ou áudio, que capturam significados e relações semânticas em um espaço de alta dimensão.
Embeddings Vetoriais
Embeddings vetoriais são representações numéricas de textos, imagens ou outros dados que capturam o significado semântico, permitindo que máquinas entendam similaridades e relações entre diferentes informações.
Geração Aumentada por Recuperação (RAG)
Geração Aumentada por Recuperação (RAG) é uma técnica que aprimora as respostas de LLMs ao primeiro recuperar documentos ou dados relevantes de uma base de conhecimento externa e injetar esse contexto no prompt do modelo.
Busca Semântica
Busca semântica é uma técnica de busca que entende o significado e a intenção por trás de uma consulta, retornando resultados com base na relevância conceitual e não apenas pela correspondência exata de palavras-chave.
Memória Baseada em Grafo
Memória baseada em grafo é uma arquitetura de memória de IA que armazena informações como nós e relações interconectados, permitindo compreensão contextual rica e conhecimento persistente ao longo das interações.


