DPO(Direct Preference Optimization, 2023)는 RLHF의 복잡한 강화학습 단계를 단순한 분류 학습으로 대체한 새로운 정렬 기법입니다.
같은 사람 선호 데이터로 더 안정적이고 더 적은 자원으로 모델을 다듬을 수 있어, 최근 빠르게 표준이 되어 가고 있습니다.
RLHF의 복잡함은 「강화학습」 부분에 있었습니다.
보상 모델을 학습한 뒤 PPO(Proximal Policy Optimization) 같은 강화학습 알고리즘으로 LLM을 다시 학습시키는데, 이 과정이 불안정하고 하이퍼파라미터에 민감해 「잘 안 되는 일」이 잦았습니다.
DPO는 영리한 수학적 통찰로 이 문제를 풉니다.
「사람이 답 A를 답 B보다 선호한다」는 데이터에서, 보상 모델을 따로 학습하지 않고 LLM 자체를 「답 A의 확률은 높이고 답 B의 확률은 낮추는」 단순한 분류 학습으로 한 번에 다듬을 수 있다는 사실을 증명했습니다.
비유하자면 RLHF는 「학생에게 글을 쓰게 한 뒤 점수를 매기고, 그 점수를 보고 다시 글을 쓰게 하는 두 단계」, DPO는 「"이 글보다 저 글이 더 좋다"는 비교만 보여 주고 학생이 바로 다듬게 하는 한 단계」와 같습니다.
단순한 만큼 안정적입니다.
DPO 등장 후 Llama 3, Mistral, 많은 오픈 모델들이 RLHF 대신 DPO를 채택했습니다.
변형으로 IPO·KTO·SimPO 등이 있고, 각자 약간씩 다른 가정과 안정성 트레이드오프를 가집니다.
「LLM 정렬의 미래」로 평가됩니다.
한 줄 요약
DPO는 RLHF의 복잡한 강화학습 단계를 단순한 분류 학습으로 대체한 정렬 기법입니다.
더 안정적이고 적은 자원으로 같은 효과를 내며 새 표준이 되고 있습니다.
더 알아볼 것
- PPO와 DPO의 수학적 관계
- KTO·IPO·SimPO 등 DPO 변형
- DPO의 한계와 RLHF의 잔존 가치