ImageNet은 2009년 페이페이 리(Fei-Fei Li) 교수가 주도해 만든 약 1,400만 장의 라벨 붙은 이미지 데이터셋입니다.
이전까지의 이미지 데이터셋이 수만 장 규모였던 것을 감안하면 압도적인 크기였고, 이를 활용한 ILSVRC(ImageNet Large Scale Visual Recognition Challenge) 대회가 2010년부터 매년 열렸습니다.
초기 우승 모델들의 오류율은 25~28% 수준으로, 사람의 약 5%와는 큰 격차가 있었습니다.
그런데 2012년 토론토 대학교의 알렉스 크리제프스키·일리야 수츠케버·제프리 힌튼이 발표한 「알렉스넷(AlexNet)」이 단숨에 16% 수준으로 끌어내렸습니다.
9%포인트의 격차는 누구도 예상하지 못한 수준이었습니다.
알렉스넷의 비결은 다음과 같습니다.
첫째, 8개 층의 깊은 CNN 구조 — 그 전 모델들보다 훨씬 깊었습니다.
둘째, GPU 두 대를 병렬로 사용해 학습 시간을 일주일 안으로 줄였습니다.
셋째, ReLU·드롭아웃·데이터 증강 같은 새로운 기법들을 결합했습니다.
이 사건의 진짜 의미는 「충분한 데이터(ImageNet) + 충분한 컴퓨팅(GPU) + 깊은 신경망(CNN) 조합이면 사람의 시각 능력에 가깝게 갈 수 있다」를 처음으로 입증한 데 있습니다.
이후 컴퓨터 비전 분야는 통째로 딥러닝으로 옮겨갔고, 2017년 ResNet은 사람보다도 낮은 오류율을 기록했습니다.
오늘날 우리가 보는 자율주행, 의료 영상 진단, 얼굴 인식, 이미지 검색은 모두 알렉스넷에서 시작된 흐름의 후속편입니다.
「딥러닝 르네상스」의 출발점으로 가장 자주 인용되는 사건이 바로 2012년의 이 대회 결과입니다.
한 줄 요약
2012년 알렉스넷이 ImageNet에서 16%의 오류율로 압도적 우승하며 「깊은 CNN + GPU + 큰 데이터」 조합의 위력을 입증했고, 이로써 현대 컴퓨터 비전과 딥러닝 시대가 시작되었습니다.
더 알아볼 것
- 페이페이 리와 ImageNet의 탄생
- Top-1 vs Top-5 정확도
- ImageNet의 라벨 오류와 비판