비지도학습(unsupervised learning)은 「정답 라벨이 없는 데이터만 잔뜩 주고, 그 안에서 모델이 스스로 패턴을 찾아내게 하는 방식」입니다.
라벨이 없으니 「분류해 보라」가 아니라 「비슷한 것끼리 묶어 보라」 같은 더 추상적인 목표를 줍니다.
가장 흔한 비지도학습 작업은 군집화(clustering)입니다.
예를 들어 쇼핑몰 고객 1만 명의 구매 기록만 주고 「비슷한 구매 패턴을 가진 고객들끼리 몇 그룹으로 묶어 보라」고 하면, 모델은 「자주 사는 IT 기기 위주의 그룹」, 「유아용품 위주의 그룹」 같은 자연스러운 묶음을 찾아냅니다.
비유하자면 비지도학습은 「지도와 나침반 없이 도시를 돌아다니며 동네의 분위기로 구역을 나누는 여행자」와 같습니다.
누가 「여기는 카페 거리」라고 알려 주지 않아도 카페가 모인 모습을 보고 스스로 「카페 동네」라 이름 붙입니다.
또 다른 대표 작업으로 차원 축소(dimensionality reduction)가 있습니다.
PCA, t-SNE, UMAP 같은 기법은 수백 차원의 복잡한 데이터를 2~3차원으로 줄여 사람이 그래프로 볼 수 있게 만들어 줍니다.
비지도학습의 매력은 「라벨링 비용이 거의 없다」는 점이지만, 결과가 정답에 가까운지 확신하기 어렵다는 한계가 있습니다.
그래서 보통 비지도학습으로 큰 그림을 본 뒤 사람의 검토를 거쳐 다음 단계로 넘어갑니다.
한 줄 요약
비지도학습은 정답 없이 데이터의 구조를 스스로 찾는 방식으로, 군집화와 차원 축소가 대표 작업이며 라벨링 비용이 들지 않는 대신 결과 검증이 까다롭습니다.
더 알아볼 것
- K-평균 군집화의 작동 원리
- DBSCAN — 밀도 기반 군집
- 오토인코더 — 신경망으로 하는 비지도 표현 학습