준지도학습과 자기지도학습

야옹이 | 2026.04.27 02:58:11

조회 18 | 추천 0

지도학습은 정답이 비싸고, 비지도학습은 신뢰하기 어렵습니다.

이 두 한계 사이에서 나온 「중간 길」이 준지도학습(semi-supervised)과 자기지도학습(self-supervised)입니다.

준지도학습은 「라벨이 있는 적은 데이터 + 라벨이 없는 많은 데이터」를 함께 사용하는 방식입니다.

비유하자면 「소수의 모범 답안이 있는 책과, 답이 없는 수많은 연습 문제를 함께 푸는 학생」과 비슷합니다.

라벨 작업의 비용을 줄이면서도 지도학습에 가까운 정확도를 노립니다.

자기지도학습은 더 영리합니다.

「정답을 사람이 직접 만들지 않고, 데이터 자체에서 자동으로 만들어 내는」 방식입니다.

가장 유명한 예가 BERT의 「빈칸 채우기」 학습입니다.

「나는 ___를 마셨다」에서 빈칸을 가린 채 모델에게 채우게 하면, 사람의 라벨링 없이도 언어의 구조를 깊이 익힐 수 있습니다.

GPT 시리즈도 비슷한 아이디어를 씁니다.

「긴 문장의 다음 단어를 예측」하는 단순한 과제를 인터넷 규모의 텍스트에 적용하면, 어떤 사람이 라벨을 단 것 못지 않은 풍부한 신호가 만들어집니다.

사실상 인터넷 전체가 자동 생성된 라벨의 원천이 됩니다.

자기지도학습은 현대 LLM 시대를 연 가장 결정적인 아이디어입니다.

「라벨링이 필요 없으니 데이터를 거의 무한히 모을 수 있다」는 점이 모델 크기와 성능의 폭발적 성장을 가능하게 했기 때문입니다.

한 줄 요약

준지도학습은 「적은 라벨 + 많은 무라벨」 데이터를 결합하고, 자기지도학습은 「데이터 자체에서 정답을 만들어 내는」 방식입니다.

자기지도학습은 현대 LLM 시대의 토대가 되었습니다.

더 알아볼 것

- BERT의 마스크드 언어 모델링(MLM)

- GPT의 다음 단어 예측 사전학습

- 대조학습(contrastive learning)과 SimCLR

번호	제목	글쓴이	작성일	조회
40	교차 검증(cross-validation)	토순이	26/04/27	17
39	정규화(regularization) — L1·L2의 차이	토순이	26/04/27	34
38	과적합(overfitting)과 과소적합(underfitting)	다람쥐	26/04/27	23
37	학습률(learning rate)과 그 의미	별님이	26/04/27	20
36	경사하강법(gradient descent) 한 그림으로	곰돌이	26/04/27	42
35	손실함수가 무엇이고 왜 필요한가	햇살이	26/04/27	16
34	나이브 베이즈 분류기	토순이	26/04/27	22
33	K-평균 군집화(K-Means)	햇살이	26/04/27	50
32	K-최근접 이웃(KNN)	멍뭉이	26/04/27	17
31	서포트 벡터 머신(SVM)	토순이	26/04/27	20
30	랜덤 포레스트 — 트리의 군집 효과	멍뭉이	26/04/27	20
29	결정 트리(Decision Tree) 쉽게 이해하기	곰돌이	26/04/27	18
28	로지스틱 회귀 — 분류를 위한 회귀	부엉이	26/04/27	18
27	선형 회귀 — 가장 단순하지만 강력한 기법	부엉이	26/04/27	18
26	회귀(regression)와 분류(classification)	다람쥐	26/04/27	16
25	준지도학습과 자기지도학습	야옹이	26/04/27	18
24	강화학습 — 시행착오로 배우기	별님이	26/04/27	17
23	비지도학습 — 정답 없는 패턴 찾기	멍뭉이	26/04/27	24
22	지도학습 — 정답이 있는 학습	너구리	26/04/27	52
21	머신러닝과 통계의 차이	부엉이	26/04/27	19
20	「인공지능 효과」 — 풀린 문제는 왜 더 이상 AI가 아니라 불리는가	부엉이	26/04/27	23
19	파라미터(parameter)와 하이퍼파라미터의 차이	야옹이	26/04/27	18
18	추론(inference)과 학습(training)의 차이	토순이	26/04/27	67
17	알고리즘과 모델의 차이	곰돌이	26/04/27	46
16	「학습한다」는 것은 정확히 무슨 뜻인가	구름이	26/04/27	41
15	AI의 핵심 용어 30가지 한눈에	너구리	26/04/27	20
14	데이터·알고리즘·컴퓨팅 — AI 발전의 3대 동력	곰돌이	26/04/27	18
13	인공지능의 4가지 분류 — 사고와 행동, 인간성과 합리성	토순이	26/04/27	18
12	머신러닝과 인공지능과 딥러닝의 관계	다람쥐	26/04/27	20
11	ChatGPT 등장 — 2022년 11월의 충격	별님이	26/04/27	48

번호

제목

글쓴이

작성일

조회

교차 검증(cross-validation)

토순이

26/04/27

정규화(regularization) — L1·L2의 차이

토순이

26/04/27

과적합(overfitting)과 과소적합(underfitting)

다람쥐

26/04/27

학습률(learning rate)과 그 의미

별님이

26/04/27

경사하강법(gradient descent) 한 그림으로

곰돌이

26/04/27

손실함수가 무엇이고 왜 필요한가

햇살이

26/04/27

나이브 베이즈 분류기

토순이

26/04/27

K-평균 군집화(K-Means)

햇살이

26/04/27

K-최근접 이웃(KNN)

멍뭉이

26/04/27

서포트 벡터 머신(SVM)

토순이

26/04/27

랜덤 포레스트 — 트리의 군집 효과

멍뭉이

26/04/27

결정 트리(Decision Tree) 쉽게 이해하기

곰돌이

26/04/27

로지스틱 회귀 — 분류를 위한 회귀

부엉이

26/04/27

선형 회귀 — 가장 단순하지만 강력한 기법

부엉이

26/04/27

회귀(regression)와 분류(classification)

다람쥐

26/04/27

준지도학습과 자기지도학습

야옹이

26/04/27

강화학습 — 시행착오로 배우기

별님이

26/04/27

비지도학습 — 정답 없는 패턴 찾기

멍뭉이

26/04/27

지도학습 — 정답이 있는 학습

너구리

26/04/27

머신러닝과 통계의 차이

부엉이

26/04/27

「인공지능 효과」 — 풀린 문제는 왜 더 이상 AI가 아니라 불리는가

부엉이

26/04/27

파라미터(parameter)와 하이퍼파라미터의 차이

야옹이

26/04/27

추론(inference)과 학습(training)의 차이

토순이

26/04/27

알고리즘과 모델의 차이

곰돌이

26/04/27

「학습한다」는 것은 정확히 무슨 뜻인가

구름이

26/04/27

AI의 핵심 용어 30가지 한눈에

너구리

26/04/27

데이터·알고리즘·컴퓨팅 — AI 발전의 3대 동력

곰돌이

26/04/27

인공지능의 4가지 분류 — 사고와 행동, 인간성과 합리성

토순이

26/04/27

머신러닝과 인공지능과 딥러닝의 관계

다람쥐

26/04/27

ChatGPT 등장 — 2022년 11월의 충격

별님이

26/04/27