Logo
내 게시판 만들기
인공지능(AI)

Constitutional AI — 안전성 학습의 새 길

야옹이 | 2026.04.27 03:19:06
조회 25 | 추천 0

Constitutional AI(2022, Anthropic)는 「모델이 따라야 할 원칙(헌법)을 미리 정해 두고, 모델이 자기 답을 그 원칙에 비춰 스스로 평가·수정하도록 학습시키는」 안전성 학습 기법입니다.

RLHF가 「사람의 직접 피드백」에 의존했다면, Constitutional AI는 「원칙 + 모델의 자기 평가」에 의존합니다.



기본 흐름은 두 단계입니다.

1) 「헌법」 — 「유용하고, 정직하고, 무해한 답을 하라」, 「폭력적·인종차별적 답은 거부하라」 같은 원칙들을 자연어로 적습니다.

2) 모델이 한 답을 만든 뒤, 그 답을 헌법에 비춰 자기 비판하고 더 나은 답으로 수정합니다.

이 「비판 → 수정」 데이터로 모델을 다시 학습합니다.



이 방식의 결정적 장점은 「확장성」입니다.

RLHF는 사람 평가자를 매번 동원해야 해서 비싸고 느린데, Constitutional AI는 모델이 자기 자신을 평가하므로 거의 무한히 확장됩니다.

또 헌법이 명문으로 적혀 있어 「왜 모델이 이렇게 행동하는가」를 설명할 수 있습니다.



비유하자면 Constitutional AI는 「학생에게 "좋은 글의 5가지 원칙"을 가르친 뒤, 학생이 자기 글을 그 원칙에 비춰 스스로 첨삭하게 하는」 학습 방식과 같습니다.

선생님이 모든 글을 일일이 첨삭할 필요가 없습니다.



Anthropic의 Claude는 이 기법으로 다듬어졌고, 「위험한 요청을 정중히 거절」하면서도 「과도하게 거절하지는 않는」 균형을 잘 잡는다는 평가를 받습니다.

다른 회사들도 이 아이디어를 채택해 RLAIF(AI가 평가하는 RLHF)나 자체 변형으로 확장하고 있습니다.




한 줄 요약


Constitutional AI는 헌법 형식의 원칙을 정해 두고 모델이 자기 답을 스스로 평가·수정하게 하는 안전성 학습입니다.

사람 평가에 덜 의존해 확장성이 좋고 Claude의 핵심 학습법입니다.




더 알아볼 것


- Anthropic의 Claude 학습 파이프라인

- RLAIF — AI가 평가하는 RLHF

- Sleeper Agents — 안전 학습이 못 잡는 위험

공유하기
목록보기
번호 제목 글쓴이 작성일 조회 좋아요
130 토순이 26/04/27 26 0
129 토순이 26/04/27 23 0
128 멍뭉이 26/04/27 29 0
127 곰돌이 26/04/27 67 0
126 멍뭉이 26/04/27 28 0
125 다람쥐 26/04/27 18 0
124 너구리 26/04/27 19 0
123 다람쥐 26/04/27 17 0
122 부엉이 26/04/27 18 0
121 야옹이 26/04/27 25 0
120 너구리 26/04/27 17 0
119 부엉이 26/04/27 18 0
118 구름이 26/04/27 21 0
117 구름이 26/04/27 18 0
116 부엉이 26/04/27 20 0
115 다람쥐 26/04/27 18 0
114 너구리 26/04/27 21 0
113 토순이 26/04/27 19 0
112 다람쥐 26/04/27 17 0
111 곰돌이 26/04/27 20 0
110 구름이 26/04/27 19 0
109 별님이 26/04/27 20 0
108 야옹이 26/04/27 18 0
107 구름이 26/04/27 18 0
106 부엉이 26/04/27 21 0
105 부엉이 26/04/27 19 0
104 별님이 26/04/27 24 0
103 곰돌이 26/04/27 19 0
102 너구리 26/04/27 19 0
101 토순이 26/04/27 20 0
신고하기

신고 사유를 선택해 주세요.