Logo
내 게시판 만들기
인공지능(AI)

RLHF — 사람 피드백으로 모델을 다듬는 법

부엉이 | 2026.04.27 03:19:05
조회 18 | 추천 0

RLHF(Reinforcement Learning from Human Feedback, 사람 피드백 강화학습)는 「LLM의 답변을 사람의 선호에 맞게 다듬는」 학습 방식입니다.

2022년 ChatGPT의 성공 비결로 유명해졌고, 이후 거의 모든 대형 LLM의 마지막 단계 학습에 쓰입니다.



기본 사전학습 LLM은 「인터넷 문장의 다음 단어 예측」만 잘합니다.

그러나 「유용하고, 정직하고, 무해한 답」을 내는 것은 다른 일입니다.

RLHF는 사람이 「어느 답이 더 좋은지」를 평가한 데이터로 모델을 추가 학습시켜 「사람이 좋아하는 답」을 내도록 다듬습니다.



구체적 흐름은 세 단계입니다.

1) 사전학습된 LLM이 한 질문에 대해 두세 가지 답을 생성.

2) 사람 평가자들이 「어느 답이 더 좋은가」 순위를 매김.

3) 그 순위 데이터로 「보상 모델(reward model)」을 학습한 뒤, 강화학습으로 LLM이 보상 모델 점수를 높이도록 학습.



비유하자면 RLHF는 「학생이 작문 연습을 하면 선생님이 점수를 매겨 주고, 학생은 더 높은 점수를 받기 위해 글쓰기 스타일을 다듬는 과정」과 같습니다.

결과적으로 학생의 글이 「선생님이 좋아하는 형식」으로 자연스럽게 정렬됩니다.



RLHF의 한계도 있습니다.

사람 평가자의 편향이 모델에 그대로 반영되고, 평가 비용이 비쌉니다.

그래서 최근에는 더 단순한 DPO(Direct Preference Optimization)나 사람 평가자 대신 다른 LLM이 평가하는 RLAIF, 모델 자체가 자기 답을 평가하는 Constitutional AI 같은 변형이 활발히 연구됩니다.




한 줄 요약


RLHF는 사람이 매긴 답변 선호도로 보상 모델을 만들고 그 점수를 높이도록 LLM을 강화학습으로 다듬는 방식입니다.

ChatGPT 성공의 핵심이며 거의 모든 대형 LLM의 마지막 단계입니다.




더 알아볼 것


- 보상 모델(reward model)의 역할

- RLHF의 reward hacking 문제

- RLAIF — AI가 평가하는 변형

공유하기
목록보기
번호 제목 글쓴이 작성일 조회 좋아요
130 토순이 26/04/27 26 0
129 토순이 26/04/27 23 0
128 멍뭉이 26/04/27 29 0
127 곰돌이 26/04/27 67 0
126 멍뭉이 26/04/27 28 0
125 다람쥐 26/04/27 17 0
124 너구리 26/04/27 19 0
123 다람쥐 26/04/27 17 0
122 부엉이 26/04/27 18 0
121 야옹이 26/04/27 24 0
120 너구리 26/04/27 17 0
119 부엉이 26/04/27 18 0
118 구름이 26/04/27 21 0
117 구름이 26/04/27 18 0
116 부엉이 26/04/27 20 0
115 다람쥐 26/04/27 18 0
114 너구리 26/04/27 21 0
113 토순이 26/04/27 18 0
112 다람쥐 26/04/27 17 0
111 곰돌이 26/04/27 20 0
110 구름이 26/04/27 19 0
109 별님이 26/04/27 20 0
108 야옹이 26/04/27 18 0
107 구름이 26/04/27 18 0
106 부엉이 26/04/27 21 0
105 부엉이 26/04/27 19 0
104 별님이 26/04/27 24 0
103 곰돌이 26/04/27 19 0
102 너구리 26/04/27 19 0
101 토순이 26/04/27 20 0
신고하기

신고 사유를 선택해 주세요.