Apprentissage par renforcement
L'apprentissage par renforcement (RL) est un paradigme d'apprentissage automatique dans lequel un agent apprend à prendre des décisions en recevant des signaux de récompense pour les actions menant à des résultats désirés et des punitions pour les actions non souhaitées.
Comprendre Apprentissage par renforcement
Dans l'apprentissage par renforcement, un agent interagit avec un environnement, effectue des actions, reçoit des récompenses ou des punitions selon ses actions et apprend une stratégie qui maximise la récompense cumulée. Contrairement à l'apprentissage supervisé (qui apprend à partir d'exemples étiquetés), le RL apprend par expérience et retour d'information. Le RL a permis des avancées remarquables dans les jeux (AlphaGo, OpenAI Five) et la robotique. Mais son impact le plus significatif sur les assistants IA provient de l'apprentissage par renforcement à partir de retours humains (RLHF), méthode par laquelle les LLM modernes sont entraînés à être utiles, inoffensifs et honnêtes. Le RLHF fonctionne ainsi : des évaluateurs humains comparent les sorties des modèles et indiquent laquelle est la meilleure ; un modèle de récompense apprend à prédire les préférences humaines ; le LLM est ajusté grâce au RL afin de maximiser le score du modèle de récompense. Ce processus aligne le comportement du modèle sur les valeurs humaines plus efficacement que par l'apprentissage supervisé seul. Pour les assistants IA, le RL façonne des comportements clés : être utile plutôt qu'évasif, honnête plutôt que flatteur, refuser les requêtes nocives, et fournir des réponses nuancées lorsque c'est approprié, plutôt que des réponses trop sûres d'elles.
Comment GAIA utilise Apprentissage par renforcement
GAIA bénéficie de LLM entraînés par apprentissage par renforcement (Claude, GPT-4), dont les comportements utiles, inoffensifs et honnêtes ont été façonnés grâce au RLHF. Les propriétés d'alignement instaurées par le RLHF — utilité sans flatterie, honnêteté sur l'incertitude, refus appropriés — sont fondamentales dans le comportement des modèles sous-jacents de GAIA.
Concepts liés
Ajustement fin
L'ajustement fin est le processus qui consiste à reprendre l'entraînement d'un modèle d'IA pré-entraîné sur un jeu de données plus petit et spécifique à une tâche afin d'adapter son comportement à un domaine ou une application particuliers.
Modèle fondamental
Un modèle fondamental est un grand modèle d'IA entraîné à grande échelle sur des données variées et pouvant être adapté à un large éventail de tâches via l'ajustement fin, l'invite ou l'intégration dans des architectures applicatives.
Alignement de l'IA
L'alignement de l'IA est un domaine de recherche et d'ingénierie qui vise à ce que les systèmes d'IA poursuivent des objectifs bénéfiques, sûrs et alignés sur les valeurs et intentions humaines, même lorsqu'ils deviennent plus puissants et autonomes.
Large Language Model (LLM)
Un Large Language Model (LLM) est un modèle d'apprentissage profond entraîné sur d'immenses ensembles de textes, capable de comprendre, générer et raisonner sur le langage humain dans une grande variété de tâches.
Humain dans la boucle
L'humain dans la boucle (HITL) est un modèle de conception dans lequel un système IA inclut une supervision et une validation humaines à des points de décision clés, garantissant que les actions sensibles ou à fort impact nécessitent une confirmation humaine avant exécution.


