Aprendizaje por refuerzo
El aprendizaje por refuerzo (RL) es un paradigma de aprendizaje automático en el que un agente aprende a tomar decisiones mediante señales de recompensa por acciones que logran resultados deseados y señales de penalización por acciones indeseadas.
Comprendiendo Aprendizaje por refuerzo
En el aprendizaje por refuerzo, un agente interactúa con un entorno, toma acciones y recibe recompensas o penalizaciones en función de esas acciones, aprendiendo así una política que maximiza la recompensa acumulada. A diferencia del aprendizaje supervisado (que aprende a partir de ejemplos etiquetados), el RL aprende de la experiencia y la retroalimentación. El RL ha logrado resultados notables en juegos (AlphaGo, OpenAI Five) y robótica. Sin embargo, su impacto más relevante en los asistentes de IA proviene del Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), que es el método para entrenar los LLM modernos para que sean útiles, inofensivos y honestos. El RLHF funciona así: un grupo de evaluadores humanos compara las respuestas del modelo e indica cuál es mejor; un modelo de recompensa aprende a predecir las preferencias humanas; luego, el LLM se ajusta mediante RL para maximizar la puntuación de ese modelo de recompensa. Este proceso alinea el comportamiento del modelo con los valores humanos de manera más efectiva que el aprendizaje supervisado por sí solo. Para los asistentes de IA, el RL da forma a conductas críticas: ser útil en lugar de evasivo, ser honesto en vez de adulador, rechazar solicitudes dañinas y proporcionar respuestas matizadas en lugar de respuestas demasiado seguras.
Cómo GAIA usa Aprendizaje por refuerzo
GAIA se beneficia de LLMs entrenados con RL (Claude, GPT-4) cuyos comportamientos útiles, seguros y honestos fueron moldeados mediante RLHF. Las propiedades de alineación fomentadas por RLHF — utilidad sin zalamería, honestidad ante la incertidumbre, rechazos adecuados — son fundamentales para el comportamiento de los modelos subyacentes de GAIA.
Conceptos relacionados
Ajuste fino
El ajuste fino es el proceso de tomar un modelo de IA preentrenado y continuar su entrenamiento con un conjunto de datos más pequeño y específico para adaptar su comportamiento a un dominio o aplicación particular.
Modelo fundacional
Un modelo fundacional es un gran modelo de IA entrenado a escala con datos amplios que puede adaptarse a una amplia variedad de tareas mediante ajuste fino, indicaciones o integración en arquitecturas de aplicaciones.
Alineación de IA
La alineación de IA es el campo de investigación e ingeniería enfocado en asegurar que los sistemas de IA persiguen objetivos que son beneficiosos, seguros y coherentes con los valores e intenciones humanas, incluso a medida que se vuelven más capaces y autónomos.
Modelo de lenguaje grande (LLM)
Un modelo de lenguaje grande (LLM) es un modelo de aprendizaje profundo entrenado con enormes conjuntos de datos textuales que puede comprender, generar y razonar sobre el lenguaje humano en una amplia variedad de tareas.
Human-in-the-Loop
Human-in-the-loop (HITL) es un patrón de diseño donde el sistema de IA incluye supervisión y aprobación humana en puntos de decisión críticos, asegurando que las acciones sensibles o de alto impacto requieran confirmación humana antes de ejecutarse.


