Base de datos vectorial
Una base de datos vectorial es un sistema de base de datos diseñado para almacenar, indexar y consultar embeddings vectoriales de alta dimensión a gran escala, permitiendo búsquedas de similitud rápidas en grandes colecciones de datos embebidos.
Comprendiendo Base de datos vectorial
Las bases de datos tradicionales almacenan datos estructurados en tablas y los consultan con filtros de coincidencia exacta. Las bases de datos vectoriales funcionan de manera diferente: almacenan vectores en coma flotante (embeddings) y los consultan por similitud usando métricas de distancia como similitud de coseno o distancia euclidiana. Esto las convierte en una infraestructura esencial para aplicaciones de IA que necesitan búsqueda semántica, recomendaciones o memoria. El principal desafío que resuelven las bases de datos vectoriales es el problema del 'vecino más cercano' a gran escala. Encontrar los vectores más cercanos a un vector de consulta entre millones de embeddings almacenados requiere algoritmos de indexación especializados. Algoritmos de Vecino Más Cercano Aproximado (ANN) como HNSW e IVF aceleran esto al intercambiar una pequeña parte de precisión por una gran mejora en la velocidad. Algunas bases de datos vectoriales populares incluyen ChromaDB, Pinecone, Weaviate, Qdrant y pgvector (una extensión de PostgreSQL). Se diferencian en el modelo de despliegue, escalabilidad, capacidades de filtrado y facilidad de uso. ChromaDB es especialmente popular para implementaciones locales y autoalojadas debido a su simplicidad. En los sistemas RAG, la base de datos vectorial almacena los embeddings de tu base de conocimiento. Al consultar, la base de datos encuentra los embeddings más relevantes y devuelve los documentos originales para que el LLM los use como contexto. Esto permite que los sistemas de IA accedan a conocimientos específicos sin tener que incluir todo en la ventana de contexto del LLM.
Cómo GAIA usa Base de datos vectorial
GAIA utiliza ChromaDB como su base de datos vectorial para almacenar y consultar embeddings de tus correos electrónicos, tareas, documentos y eventos de calendario. Cuando GAIA necesita encontrar contexto relevante para una tarea o responder a una consulta de búsqueda, ChromaDB realiza una búsqueda rápida por similitud entre todo el contenido embebido. Esto le da a GAIA una memoria persistente y consultable de todo tu espacio de trabajo digital, que se vuelve más inteligente a medida que se indexan más datos.
Conceptos relacionados
Embeddings
Los embeddings son representaciones densas en vectores numéricos de datos, como texto, imágenes o audio, que capturan significado semántico y relaciones en un espacio de alta dimensión.
Incrustaciones Vectoriales
Las incrustaciones vectoriales son representaciones numéricas de texto, imágenes u otros datos que capturan el significado semántico, permitiendo que las máquinas comprendan la similitud y las relaciones entre diferentes piezas de información.
Generación Aumentada por Recuperación (RAG)
La Generación Aumentada por Recuperación (RAG) es una técnica que mejora las respuestas de LLM recuperando primero documentos o datos relevantes de una base de conocimiento externa e inyectando ese contexto en el prompt del modelo.
Búsqueda semántica
La búsqueda semántica es una técnica de búsqueda que comprende el significado y la intención detrás de una consulta, mostrando resultados según la relevancia conceptual y no sólo coincidencias exactas de palabras clave.
Memoria basada en gráficos
La memoria basada en gráficos es una arquitectura de memoria de IA que almacena información como nodos y relaciones interconectados, permitiendo una comprensión contextual amplia y conocimiento persistente a lo largo de las interacciones.


