지도학습(supervised learning)은 「입력과 정답의 쌍을 잔뜩 모아 두고, 모델에게 그 관계를 익히게 하는 방식」입니다.
머신러닝의 가장 대표적이고 널리 쓰이는 학습 방법입니다.
예를 들어 「사진 한 장과 그 사진이 고양이인지 개인지 적어 둔 라벨」을 수만 장 모아 모델에 보여 주면, 모델은 점점 「고양이의 시각적 특징」을 익혀 처음 보는 사진도 분류할 수 있게 됩니다.
또 「과거 집값 데이터(평수·위치 등)와 실제 거래가」를 보여 주면, 모델은 새 집의 가격을 예측할 수 있게 됩니다.
비유하자면 지도학습은 「정답이 적힌 모범 답안과 함께 문제집을 푸는 학생」과 같습니다.
매 문제마다 자기가 맞혔는지 확인할 수 있어 빠르게 배웁니다.
그 대신 정답을 일일이 마련하는 「라벨링」 작업이 가장 큰 비용이 됩니다.
지도학습은 다시 회귀(연속된 숫자를 예측, 예: 집값)와 분류(어느 범주에 속하는지 예측, 예: 고양이/개)로 나뉩니다.
우리가 일상에서 마주치는 스팸 필터, 신용카드 사기 탐지, 음성 인식 자동 자막은 거의 모두 지도학습 기반입니다.
다만 정답이 없는 영역(예: 「이 그림은 어느 화풍에 속하는가」 같은 모호한 분류, 새로 발견된 별의 분류 등)에서는 지도학습이 통하지 않으며, 비지도학습이나 강화학습으로 가야 합니다.
한 줄 요약
지도학습은 「입력과 정답의 쌍」으로 모델을 가르치는 가장 기본적인 학습 방식이며, 회귀(숫자 예측)와 분류(범주 예측)로 나뉩니다.
더 알아볼 것
- 라벨링 — 지도학습의 가장 큰 비용
- Active Learning — 라벨이 가장 필요한 데이터를 골라 묻는 기법
- 약한 지도학습(weak supervision)