이미지 분류(image classification)는 「입력 이미지가 어떤 종류에 속하는지 판단하는」 컴퓨터 비전의 가장 기본 작업입니다.
「이 사진은 강아지인가 고양이인가」, 「이 X-ray는 정상인가 폐렴인가」, 「이 잎 사진은 어떤 식물병에 걸렸는가」 같은 질문에 답합니다.
이미지 분류는 비전 분야 발전의 척도 역할을 해 왔습니다.
ImageNet 대회(2010~)는 「1,000종의 사물 중 어느 것인가」를 맞히는 분류 시험이었고, 2012년 알렉스넷의 우승이 「딥러닝 시대」를 열었습니다.
그 후 ResNet·EfficientNet·ViT 같은 모델들이 사람 수준 이상의 정확도에 도달했습니다.
산업 응용은 매우 광범위합니다.
의료 영상 진단(피부암·X-ray 폐렴·MRI 종양), 농업(병해충 진단·과일 등급 분류), 제조업(불량품 자동 검사), 보안(번호판 인식·CCTV 분류), 식품(음식 종류 자동 인식) 등 거의 모든 산업에 도입되어 있습니다.
구현은 갈수록 쉬워지고 있습니다.
Hugging Face의 Transformers 라이브러리에서 사전학습 모델을 가져와 자기 데이터로 몇 시간 미세조정하면 실용 가능한 수준의 분류기가 됩니다.
AutoML 도구들은 이 과정을 거의 자동화해 줍니다.
최근 흐름은 「제로샷 분류」입니다.
CLIP 같은 모델은 「강아지 사진의 라벨이 학습에 없었어도, 텍스트 "a photo of a dog"으로 분류 가능」합니다.
새로운 분류 작업을 시작할 때 라벨링 없이 즉시 시도해 볼 수 있어, 분류 시스템 구축의 시작 비용을 크게 낮췄습니다.
한 줄 요약
이미지 분류는 「이 사진이 어떤 종류인가」를 맞히는 비전의 기본 작업으로, ImageNet과 함께 딥러닝 발전의 척도가 되어 왔습니다.
의료·농업·제조 등 거의 모든 산업에 응용되고 있습니다.
더 알아볼 것
- ImageNet 1000 클래스
- Top-1 vs Top-5 정확도의 의미
- Transfer learning으로 분류기 빠르게 만들기