Aprendizado por Reforço
Aprendizado por reforço (RL) é um paradigma de aprendizado de máquina no qual um agente aprende a tomar decisões ao receber sinais de recompensa por ações que alcançam resultados desejados e sinais de penalidade por ações indesejadas.
Entendendo Aprendizado por Reforço
No aprendizado por reforço, um agente interage com um ambiente, toma decisões, recebe recompensas ou penalidades de acordo com essas ações e aprende uma política que maximize a recompensa acumulada. Diferente do aprendizado supervisionado (aprender a partir de exemplos rotulados), o RL aprende a partir da experiência e do feedback. O RL alcançou resultados notáveis em jogos (AlphaGo, OpenAI Five) e robótica. Mas seu maior impacto em assistentes de IA ocorre por meio do Aprendizado por Reforço com Feedback Humano (RLHF), que é como os LLMs modernos são treinados para serem úteis, inofensivos e honestos. O RLHF funciona assim: avaliadores humanos comparam respostas do modelo e indicam qual é melhor; um modelo de recompensa aprende a prever as preferências humanas; o LLM é ajustado com RL para maximizar a pontuação desse modelo de recompensa. Esse processo alinha o comportamento do modelo aos valores humanos de forma mais eficaz do que apenas o aprendizado supervisionado. Nos assistentes de IA, o RL modela comportamentos críticos: ser útil em vez de evasivo, ser honesto em vez de bajulador, recusar solicitações prejudiciais e fornecer respostas com o grau de nuance apropriado, em vez de respostas excessivamente confiantes.
Como GAIA usa Aprendizado por Reforço
A GAIA se beneficia de LLMs treinados com RL (Claude, GPT-4), cujos comportamentos úteis, seguros e honestos foram moldados por meio de RLHF. As propriedades de alinhamento promovidas pelo RLHF — utilidade sem bajulação, honestidade sobre incertezas, recusas apropriadas — são fundamentais para o funcionamento dos modelos base da GAIA.
Conceitos relacionados
Ajuste Fino
Ajuste fino é o processo de pegar um modelo de IA pré-treinado e continuar seu treinamento em um conjunto de dados menor e específico, para adaptar o comportamento do modelo para um domínio ou aplicação particular.
Modelo Fundamental
Um modelo fundamental é um grande modelo de IA treinado em larga escala com dados amplos, que pode ser adaptado para uma ampla variedade de tarefas por meio de ajuste fino, prompts ou integração em arquiteturas de aplicações.
Alinhamento de IA
Alinhamento de IA é o campo de pesquisa e engenharia dedicado a garantir que sistemas de IA busquem objetivos que sejam benéficos, seguros e consistentes com os valores e intenções humanas, mesmo à medida que se tornam mais capazes e autônomos.
Large Language Model (LLM)
Um Modelo de Linguagem de Grande Porte (LLM) é um modelo de deep learning treinado com enormes conjuntos de textos capaz de compreender, gerar e raciocinar sobre linguagem humana em uma ampla variedade de tarefas.
Human-in-the-Loop
Human-in-the-loop (HITL) é um padrão de design em que um sistema de IA inclui supervisão e aprovação humana em pontos críticos de decisão, garantindo que ações sensíveis ou de grande impacto exijam confirmação humana antes de serem executadas.


