Generación Aumentada por Recuperación (RAG)
La Generación Aumentada por Recuperación (RAG) es una técnica que mejora las respuestas de LLM recuperando primero documentos o datos relevantes de una base de conocimiento externa e inyectando ese contexto en el prompt del modelo.
Comprendiendo Generación Aumentada por Recuperación (RAG)
Los LLM tienen una limitación fundamental: su conocimiento queda congelado en el momento del entrenamiento y está restringido por la ventana de contexto. RAG resuelve ambos problemas añadiendo un paso de recuperación antes de la generación. Cuando llega una consulta, un sistema de recuperación busca contenido relevante en una base de conocimiento externa, y los documentos recuperados se inyectan como contexto en el prompt del LLM. El LLM entonces genera una respuesta fundamentada en la información recuperada. El paso de recuperación normalmente utiliza búsqueda semántica sobre una base de datos vectorial. La consulta se embebe y la base de datos vectorial encuentra los embeddings almacenados más similares, devolviendo los documentos originales. Esto permite que el LLM responda preguntas sobre información para la que nunca fue entrenado, como tus correos concretos, documentos de empresa o datos recientes. RAG reduce drásticamente las alucinaciones en tareas intensivas en conocimiento porque el modelo recibe documentos fuente que puede consultar, en vez de depender solo de los pesos memorizados. Las respuestas también pueden citar fuentes, lo que las hace verificables. Técnicas avanzadas de RAG incluyen búsqueda híbrida (combinando similitud vectorial con búsqueda por palabras clave), reordenamiento de documentos recuperados por relevancia y recuperación multi-hop donde el modelo recupera información de manera iterativa en varios pasos. Estas mejoras incrementan considerablemente la precisión para preguntas complejas.
Cómo GAIA usa Generación Aumentada por Recuperación (RAG)
GAIA implementa RAG para fundamentar sus respuestas en tus datos reales. Cuando haces una pregunta o cuando GAIA necesita contexto para una tarea, recupera correos, tareas y documentos relevantes de ChromaDB antes de generar una respuesta. Esto significa que GAIA puede responder preguntas como "¿Qué decidimos sobre el cronograma del proyecto?" buscando realmente en tus correos y notas de reuniones, en vez de adivinar a partir de conocimiento general.
Conceptos relacionados
Base de datos vectorial
Una base de datos vectorial es un sistema de base de datos diseñado para almacenar, indexar y consultar embeddings vectoriales de alta dimensión a gran escala, permitiendo búsquedas de similitud rápidas en grandes colecciones de datos embebidos.
Embeddings
Los embeddings son representaciones densas en vectores numéricos de datos, como texto, imágenes o audio, que capturan significado semántico y relaciones en un espacio de alta dimensión.
Búsqueda semántica
La búsqueda semántica es una técnica de búsqueda que comprende el significado y la intención detrás de una consulta, mostrando resultados según la relevancia conceptual y no sólo coincidencias exactas de palabras clave.
Ventana de contexto
La ventana de contexto es la cantidad máxima de tokens que un modelo de lenguaje puede procesar en una única inferencia, abarcando el prompt del sistema, el historial de conversación, los documentos recuperados y la salida generada.
Modelo de Lenguaje Grande (LLM)
Un Modelo de Lenguaje Grande (LLM) es un modelo de inteligencia artificial entrenado con grandes cantidades de datos de texto capaz de comprender, generar y razonar sobre el lenguaje humano con notable fluidez.


