지도학습 안에서 풀고자 하는 문제는 크게 두 가지로 나뉩니다.
회귀는 「연속된 숫자를 맞히는 일」, 분류는 「어느 범주에 속하는지를 맞히는 일」입니다.
예를 들어 「내일 서울의 최고기온이 몇 도일까?」는 회귀 문제입니다.
답이 23.4도, 24.7도처럼 어떤 실수든 가능합니다.
반면 「이 사진이 고양이인가, 개인가?」는 분류 문제입니다.
답이 미리 정해진 두세 개의 항목 중 하나로 떨어집니다.
두 문제는 사용하는 손실함수와 평가 지표가 다릅니다.
회귀는 「예측값과 정답의 차이를 제곱한 평균(MSE)」 같은 지표로 평가하고, 분류는 「얼마나 자주 정답을 맞혔는가(accuracy)」나 「정밀도·재현율·F1」 같은 지표로 평가합니다.
비유하자면 회귀는 「과녁의 정확한 좌표를 맞히는 사격」이고, 분류는 「과녁이 빨강·파랑·노랑 중 어느 색인지 맞히는 시험」과 같습니다.
둘 다 정답을 맞히는 일이지만 답의 모양이 완전히 다릅니다.
현실의 많은 문제는 회귀와 분류의 경계에 있습니다.
예를 들어 「이 환자가 5년 안에 재발할 확률은 얼마인가?」는 0~1 사이의 숫자(회귀)이지만, 0.5를 기준으로 「재발/비재발」로 다시 분류할 수도 있습니다.
그래서 한 모델이 두 형식을 오갈 수 있도록 설계되는 일이 많습니다.
한 줄 요약
회귀는 연속된 숫자를 맞히는 문제이고, 분류는 미리 정해진 범주 중 하나를 맞히는 문제입니다.
사용하는 손실함수와 평가 지표가 서로 다릅니다.
더 알아볼 것
- 다중 클래스 분류와 다중 라벨 분류의 차이
- 순위 회귀(ordinal regression)
- 회귀와 분류를 한 모델에 결합하는 멀티태스크 학습