Logo
내 게시판 만들기
인공지능(AI)

준지도학습과 자기지도학습

야옹이 | 2026.04.27 02:58:11
조회 18 | 추천 0

지도학습은 정답이 비싸고, 비지도학습은 신뢰하기 어렵습니다.

이 두 한계 사이에서 나온 「중간 길」이 준지도학습(semi-supervised)과 자기지도학습(self-supervised)입니다.



준지도학습은 「라벨이 있는 적은 데이터 + 라벨이 없는 많은 데이터」를 함께 사용하는 방식입니다.

비유하자면 「소수의 모범 답안이 있는 책과, 답이 없는 수많은 연습 문제를 함께 푸는 학생」과 비슷합니다.

라벨 작업의 비용을 줄이면서도 지도학습에 가까운 정확도를 노립니다.



자기지도학습은 더 영리합니다.

「정답을 사람이 직접 만들지 않고, 데이터 자체에서 자동으로 만들어 내는」 방식입니다.

가장 유명한 예가 BERT의 「빈칸 채우기」 학습입니다.

「나는 ___를 마셨다」에서 빈칸을 가린 채 모델에게 채우게 하면, 사람의 라벨링 없이도 언어의 구조를 깊이 익힐 수 있습니다.



GPT 시리즈도 비슷한 아이디어를 씁니다.

「긴 문장의 다음 단어를 예측」하는 단순한 과제를 인터넷 규모의 텍스트에 적용하면, 어떤 사람이 라벨을 단 것 못지 않은 풍부한 신호가 만들어집니다.

사실상 인터넷 전체가 자동 생성된 라벨의 원천이 됩니다.



자기지도학습은 현대 LLM 시대를 연 가장 결정적인 아이디어입니다.

「라벨링이 필요 없으니 데이터를 거의 무한히 모을 수 있다」는 점이 모델 크기와 성능의 폭발적 성장을 가능하게 했기 때문입니다.




한 줄 요약


준지도학습은 「적은 라벨 + 많은 무라벨」 데이터를 결합하고, 자기지도학습은 「데이터 자체에서 정답을 만들어 내는」 방식입니다.

자기지도학습은 현대 LLM 시대의 토대가 되었습니다.




더 알아볼 것


- BERT의 마스크드 언어 모델링(MLM)

- GPT의 다음 단어 예측 사전학습

- 대조학습(contrastive learning)과 SimCLR

공유하기
목록보기
번호 제목 글쓴이 작성일 조회 좋아요
40 토순이 26/04/27 17 0
39 토순이 26/04/27 34 0
38 다람쥐 26/04/27 23 0
37 별님이 26/04/27 20 0
36 곰돌이 26/04/27 42 0
35 햇살이 26/04/27 16 0
34 토순이 26/04/27 22 0
33 햇살이 26/04/27 50 0
32 멍뭉이 26/04/27 17 0
31 토순이 26/04/27 20 0
30 멍뭉이 26/04/27 20 0
29 곰돌이 26/04/27 18 0
28 부엉이 26/04/27 18 0
27 부엉이 26/04/27 18 0
26 다람쥐 26/04/27 16 0
25 야옹이 26/04/27 18 0
24 별님이 26/04/27 17 0
23 멍뭉이 26/04/27 24 0
22 너구리 26/04/27 52 0
21 부엉이 26/04/27 19 0
20 부엉이 26/04/27 23 0
19 야옹이 26/04/27 18 0
18 토순이 26/04/27 67 0
17 곰돌이 26/04/27 46 0
16 구름이 26/04/27 41 0
15 너구리 26/04/27 20 0
14 곰돌이 26/04/27 18 0
13 토순이 26/04/27 18 0
12 다람쥐 26/04/27 20 0
11 별님이 26/04/27 48 0
신고하기

신고 사유를 선택해 주세요.