Embedding
Un embedding es una representación vectorial numérica densa de texto (u otros datos) que codifica el significado semántico, de modo que los conceptos similares se posicionan cerca unos de otros en el espacio vectorial.
Comprendiendo Embedding
Los embeddings son el puente entre el lenguaje humano y la computación matemática. Una palabra como 'reunión' no tiene significado para una computadora como cadena de texto. Como vector de 768 o 1536 dimensiones, puede compararse matemáticamente con otros vectores. Los embeddings codifican el significado, de modo que 'reunión' y 'conferencia' están cercanos en el espacio vectorial, mientras que 'reunión' y 'base de datos' están muy separados. La potencia de los embeddings es la búsqueda de similitud semántica. Dada una consulta como 'correos sobre el lanzamiento del producto', un modelo de embedding convierte la consulta en un vector, luego busca todos los embeddings de correos almacenados que sean matemáticamente similares, mostrando los correos relevantes sin requerir coincidencias exactas de palabras clave. Esto capta la semántica, no solo patrones de texto. Los modelos de embedding se entrenan por separado de los modelos de lenguaje y se optimizan específicamente para la calidad de la representación. Los modelos text-embedding-3 de OpenAI, los modelos embed de Cohere y modelos open source como sentence-transformers son opciones populares. Los embeddings suelen ser vectores de entre 768 y 3072 dimensiones. Las aplicaciones que usan embeddings almacenan contenido en una base de datos vectorial (ChromaDB, Pinecone, Weaviate) que permite búsquedas rápidas de vecinos más cercanos en grandes colecciones de embeddings.
Cómo GAIA usa Embedding
GAIA convierte todo el contenido que ingiere — correos electrónicos, tareas, eventos de calendario, documentos — en embeddings y los almacena en ChromaDB, su base de datos vectorial. Cuando GAIA necesita encontrar contexto relevante (por ejemplo, "¿qué hemos hablado sobre el presupuesto del Q4?"), convierte la consulta en un embedding y busca en ChromaDB contenido semánticamente similar, en lugar de hacer una búsqueda por palabra clave, mostrando elementos relevantes sin importar cómo se hayan formulado.
Conceptos relacionados
Incrustaciones Vectoriales
Las incrustaciones vectoriales son representaciones numéricas de texto, imágenes u otros datos que capturan el significado semántico, permitiendo que las máquinas comprendan la similitud y las relaciones entre diferentes piezas de información.
Base de datos vectorial
Una base de datos vectorial es un sistema de base de datos diseñado para almacenar, indexar y consultar embeddings vectoriales de alta dimensión a gran escala, permitiendo búsquedas de similitud rápidas en grandes colecciones de datos embebidos.
Búsqueda semántica
La búsqueda semántica es una técnica de búsqueda que comprende el significado y la intención detrás de una consulta, mostrando resultados según la relevancia conceptual y no sólo coincidencias exactas de palabras clave.
Generación Aumentada por Recuperación (RAG)
La Generación Aumentada por Recuperación (RAG) es una técnica que mejora las respuestas de LLM recuperando primero documentos o datos relevantes de una base de conocimiento externa e inyectando ese contexto en el prompt del modelo.
Memoria basada en gráficos
La memoria basada en gráficos es una arquitectura de memoria de IA que almacena información como nodos y relaciones interconectados, permitiendo una comprensión contextual amplia y conocimiento persistente a lo largo de las interacciones.


