RLHF(Reinforcement Learning from Human Feedback, 사람 피드백 강화학습)는 「LLM의 답변을 사람의 선호에 맞게 다듬는」 학습 방식입니다.
2022년 ChatGPT의 성공 비결로 유명해졌고, 이후 거의 모든 대형 LLM의 마지막 단계 학습에 쓰입니다.
기본 사전학습 LLM은 「인터넷 문장의 다음 단어 예측」만 잘합니다.
그러나 「유용하고, 정직하고, 무해한 답」을 내는 것은 다른 일입니다.
RLHF는 사람이 「어느 답이 더 좋은지」를 평가한 데이터로 모델을 추가 학습시켜 「사람이 좋아하는 답」을 내도록 다듬습니다.
구체적 흐름은 세 단계입니다.
1) 사전학습된 LLM이 한 질문에 대해 두세 가지 답을 생성.
2) 사람 평가자들이 「어느 답이 더 좋은가」 순위를 매김.
3) 그 순위 데이터로 「보상 모델(reward model)」을 학습한 뒤, 강화학습으로 LLM이 보상 모델 점수를 높이도록 학습.
비유하자면 RLHF는 「학생이 작문 연습을 하면 선생님이 점수를 매겨 주고, 학생은 더 높은 점수를 받기 위해 글쓰기 스타일을 다듬는 과정」과 같습니다.
결과적으로 학생의 글이 「선생님이 좋아하는 형식」으로 자연스럽게 정렬됩니다.
RLHF의 한계도 있습니다.
사람 평가자의 편향이 모델에 그대로 반영되고, 평가 비용이 비쌉니다.
그래서 최근에는 더 단순한 DPO(Direct Preference Optimization)나 사람 평가자 대신 다른 LLM이 평가하는 RLAIF, 모델 자체가 자기 답을 평가하는 Constitutional AI 같은 변형이 활발히 연구됩니다.
한 줄 요약
RLHF는 사람이 매긴 답변 선호도로 보상 모델을 만들고 그 점수를 높이도록 LLM을 강화학습으로 다듬는 방식입니다.
ChatGPT 성공의 핵심이며 거의 모든 대형 LLM의 마지막 단계입니다.
더 알아볼 것
- 보상 모델(reward model)의 역할
- RLHF의 reward hacking 문제
- RLAIF — AI가 평가하는 변형