인간 피드백을 활용한 강화 학습(RLHF)
인간 피드백을 활용한 강화 학습(RLHF)은 AI 모델이 인간이 선호하는 결과를 생성하도록 훈련하는 기계 학습 기법으로, 원시 데이터만 사용하는 것이 아니라 인간이 제공한 순위 또는 평점을 학습에 활용합니다.
이해하기 인간 피드백을 활용한 강화 학습(RLHF)
RLHF는 기존의 대형 언어 모델을 ChatGPT나 Claude처럼 유용하고 안전하며 정직한 어시스턴트로 발전시키는 데 핵심적인 역할을 했습니다. RLHF 과정은 일반적으로 세 단계로 이뤄집니다: 우선 고품질 시연 데이터를 통한 감독 학습으로 모델을 미세 조정하고, 그다음 인간이 여러 출력물을 가장 좋은 것부터 나쁜 것까지 순위를 매긴 데이터를 바탕으로 보상 모델을 학습합니다. 이후에는 강화 학습—특히 Proximal Policy Optimization(PPO) 기법을 사용하여, 원래의 모델이 학습한 보상 신호를 최대화하도록 추가로 미세 조정합니다. RLHF의 핵심 아이디어는 "어떤 결과가 더 나은지(A가 B보다 낫다)"를 평가하는 것이 정확하게 좋은 결과가 무엇인지 사전에 명확히 정의하는 것보다 인간에게 더 쉽다는 점입니다. 이런 비교 선호 신호는 보상 모델로 집계되어, 실제로 평가받은 예시를 넘어 일반화될 수 있습니다. RLHF는 실제 배포되는 모델의 유용성과 안전성을 크게 높여주지만, 한계도 존재합니다. 예를 들어, 모델이 진정으로 유용하지 않더라도 보상 모델의 점수만 높을 내용을 출력하는 '보상 해킹'을 학습할 수 있습니다. 그리고 RLHF의 품질은 평가에 참여하는 인간의 일관성과 편향에 의해 제한될 수 있습니다. RLHF의 대안이자 확장으로는 별도의 보상 모델 없이 직접 선호 최적화를 달성하는 Direct Preference Optimization(DPO), 인간 피드백 대신 AI 피드백을 사용하는 Constitutional AI(CAI) 등의 방법이 있습니다.
GAIA 활용 방법 인간 피드백을 활용한 강화 학습(RLHF)
GAIA의 기본 언어 모델은 RLHF로 학습되어 유용하고 정확하며 안전한 응답을 제공합니다. RLHF를 통한 정렬 덕분에 GAIA는 민감한 개인정보(이메일, 캘린더 일정, 할 일 등)를 처리하면서 사용자가 직접 확인해야 할 것과 자동으로 처리할 수 있는 일을 합리적으로 판단할 수 있습니다. GAIA는 사용자가 직접적으로 볼 수 없는 원시 모델의 비정렬 행동을 노출하지 않고, RLHF의 이점을 활용합니다.
관련 개념
헌법적 AI
헌법적 AI(CAI)는 Anthropic이 개발한 훈련 방법론으로, AI가 인간의 가치에 맞도록 스스로의 출력 결과를 '헌법'이라 불리는 원칙 세트에 따라 평가 및 수정하게 함으로써, 오로지 인간 라벨링 데이터에만 의존하지 않고 모델을 정렬시키는 방식입니다.
파인튜닝
파인튜닝은 사전 학습된 AI 모델을 가지고 비교적 작은 규모의 작업 특화 데이터셋으로 추가 학습하여, 특정 도메인이나 애플리케이션에 맞게 모델의 동작을 조정하는 과정입니다.
대형 언어 모델 (LLM)
대형 언어 모델(LLM)은 방대한 텍스트 데이터셋으로 훈련되어, 다양한 작업에서 인간의 언어를 이해하고 생성하며 추론할 수 있는 딥러닝 모델입니다.
휴먼 인 더 루프(Human-in-the-Loop)
휴먼 인 더 루프(HITL)는 AI 시스템이 중요한 의사결정 단계에서 인간의 감독과 승인을 반드시 포함하도록 설계된 패턴입니다. 민감하거나 영향이 큰 작업은 실행 전 반드시 인간의 확인을 받게 되어 있습니다.
프롬프트 엔지니어링
프롬프트 엔지니어링은 원하는 결과를 신뢰성 있게 끌어내기 위해 AI 언어 모델에 입력을 설계하고 다듬는 실천으로, 기본 가중치 자체를 수정하지 않고도 모델의 행동을 조정할 수 있습니다.


