Logo
내 게시판 만들기
인공지능(AI)

강화학습 — 시행착오로 배우기

별님이 | 2026.04.27 02:58:11
조회 17 | 추천 0

강화학습(reinforcement learning, RL)은 「에이전트가 환경에서 행동을 해 보고, 그 결과로 받는 보상(reward)을 통해 더 좋은 행동을 익혀 가는 방식」입니다.

정답이 미리 주어지지 않고, 「잘하면 칭찬·못하면 벌점」이라는 신호만으로 학습이 진행됩니다.



가장 친숙한 비유는 「강아지 훈련」입니다.

「앉아」라고 말한 뒤 강아지가 앉으면 간식을 주고, 다른 행동을 하면 그냥 두면 됩니다.

시행착오를 거듭하면 강아지는 「앉아」를 들으면 앉을 가능성을 높이는 쪽으로 행동을 다듬어 갑니다.



강화학습은 게임·로봇·자율주행처럼 「내가 한 결정이 다음 상황을 바꾸는」 환경에서 특히 강합니다.

알파고가 바둑을 익힌 방식, OpenAI가 로봇 손에 큐브를 푸는 법을 가르친 방식, ChatGPT의 후속 단계인 RLHF(사람 피드백 강화학습) 모두 RL의 가족입니다.



기술적으로 강화학습의 핵심 요소는 네 가지입니다.

「상태(state)」 — 지금 환경의 모습.

「행동(action)」 — 에이전트가 선택할 수 있는 옵션.

「보상(reward)」 — 행동의 결과로 받는 점수.

「정책(policy)」 — 상태에 따라 어떤 행동을 고를지 결정하는 규칙.

학습은 결국 좋은 정책을 찾아 가는 과정입니다.



강화학습의 큰 어려움은 「보상이 너무 드물거나 늦게 오는 환경」을 학습하기 어렵다는 점입니다.

바둑은 한 판이 끝나야 승패가 나오고, 로봇이 큐브 하나를 풀려면 수백 단계의 행동을 정확히 이어야 합니다.

이 「희소 보상」 문제를 해결하는 다양한 기법이 활발히 연구되고 있습니다.




한 줄 요약


강화학습은 환경에서 행동→보상의 시행착오를 통해 좋은 정책을 찾아 가는 학습 방식으로, 게임·로봇·LLM의 RLHF 등에서 핵심적으로 쓰입니다.




더 알아볼 것


- Q-러닝과 정책 경사법

- RLHF — ChatGPT 학습의 마지막 단계

- 희소 보상 문제와 호기심 보상

공유하기
목록보기
번호 제목 글쓴이 작성일 조회 좋아요
40 토순이 26/04/27 17 0
39 토순이 26/04/27 34 0
38 다람쥐 26/04/27 23 0
37 별님이 26/04/27 20 0
36 곰돌이 26/04/27 42 0
35 햇살이 26/04/27 16 0
34 토순이 26/04/27 22 0
33 햇살이 26/04/27 50 0
32 멍뭉이 26/04/27 17 0
31 토순이 26/04/27 20 0
30 멍뭉이 26/04/27 20 0
29 곰돌이 26/04/27 18 0
28 부엉이 26/04/27 17 0
27 부엉이 26/04/27 17 0
26 다람쥐 26/04/27 16 0
25 야옹이 26/04/27 17 0
24 별님이 26/04/27 17 0
23 멍뭉이 26/04/27 24 0
22 너구리 26/04/27 52 0
21 부엉이 26/04/27 19 0
20 부엉이 26/04/27 22 0
19 야옹이 26/04/27 17 0
18 토순이 26/04/27 67 0
17 곰돌이 26/04/27 46 0
16 구름이 26/04/27 41 0
15 너구리 26/04/27 19 0
14 곰돌이 26/04/27 18 0
13 토순이 26/04/27 18 0
12 다람쥐 26/04/27 20 0
11 별님이 26/04/27 48 0
신고하기

신고 사유를 선택해 주세요.