지도학습은 정답이 비싸고, 비지도학습은 신뢰하기 어렵습니다.
이 두 한계 사이에서 나온 「중간 길」이 준지도학습(semi-supervised)과 자기지도학습(self-supervised)입니다.
준지도학습은 「라벨이 있는 적은 데이터 + 라벨이 없는 많은 데이터」를 함께 사용하는 방식입니다.
비유하자면 「소수의 모범 답안이 있는 책과, 답이 없는 수많은 연습 문제를 함께 푸는 학생」과 비슷합니다.
라벨 작업의 비용을 줄이면서도 지도학습에 가까운 정확도를 노립니다.
자기지도학습은 더 영리합니다.
「정답을 사람이 직접 만들지 않고, 데이터 자체에서 자동으로 만들어 내는」 방식입니다.
가장 유명한 예가 BERT의 「빈칸 채우기」 학습입니다.
「나는 ___를 마셨다」에서 빈칸을 가린 채 모델에게 채우게 하면, 사람의 라벨링 없이도 언어의 구조를 깊이 익힐 수 있습니다.
GPT 시리즈도 비슷한 아이디어를 씁니다.
「긴 문장의 다음 단어를 예측」하는 단순한 과제를 인터넷 규모의 텍스트에 적용하면, 어떤 사람이 라벨을 단 것 못지 않은 풍부한 신호가 만들어집니다.
사실상 인터넷 전체가 자동 생성된 라벨의 원천이 됩니다.
자기지도학습은 현대 LLM 시대를 연 가장 결정적인 아이디어입니다.
「라벨링이 필요 없으니 데이터를 거의 무한히 모을 수 있다」는 점이 모델 크기와 성능의 폭발적 성장을 가능하게 했기 때문입니다.
한 줄 요약
준지도학습은 「적은 라벨 + 많은 무라벨」 데이터를 결합하고, 자기지도학습은 「데이터 자체에서 정답을 만들어 내는」 방식입니다.
자기지도학습은 현대 LLM 시대의 토대가 되었습니다.
더 알아볼 것
- BERT의 마스크드 언어 모델링(MLM)
- GPT의 다음 단어 예측 사전학습
- 대조학습(contrastive learning)과 SimCLR