ImageNet과 알렉스넷의 의미 다시 보기

너구리 | 2026.04.27 03:05:32

조회 22 | 추천 0

ImageNet은 2009년 페이페이 리(Fei-Fei Li) 교수가 주도해 만든 약 1,400만 장의 라벨 붙은 이미지 데이터셋입니다.

이전까지의 이미지 데이터셋이 수만 장 규모였던 것을 감안하면 압도적인 크기였고, 이를 활용한 ILSVRC(ImageNet Large Scale Visual Recognition Challenge) 대회가 2010년부터 매년 열렸습니다.

초기 우승 모델들의 오류율은 25~28% 수준으로, 사람의 약 5%와는 큰 격차가 있었습니다.

그런데 2012년 토론토 대학교의 알렉스 크리제프스키·일리야 수츠케버·제프리 힌튼이 발표한 「알렉스넷(AlexNet)」이 단숨에 16% 수준으로 끌어내렸습니다.

9%포인트의 격차는 누구도 예상하지 못한 수준이었습니다.

알렉스넷의 비결은 다음과 같습니다.

첫째, 8개 층의 깊은 CNN 구조 — 그 전 모델들보다 훨씬 깊었습니다.

둘째, GPU 두 대를 병렬로 사용해 학습 시간을 일주일 안으로 줄였습니다.

셋째, ReLU·드롭아웃·데이터 증강 같은 새로운 기법들을 결합했습니다.

이 사건의 진짜 의미는 「충분한 데이터(ImageNet) + 충분한 컴퓨팅(GPU) + 깊은 신경망(CNN) 조합이면 사람의 시각 능력에 가깝게 갈 수 있다」를 처음으로 입증한 데 있습니다.

이후 컴퓨터 비전 분야는 통째로 딥러닝으로 옮겨갔고, 2017년 ResNet은 사람보다도 낮은 오류율을 기록했습니다.

오늘날 우리가 보는 자율주행, 의료 영상 진단, 얼굴 인식, 이미지 검색은 모두 알렉스넷에서 시작된 흐름의 후속편입니다.

「딥러닝 르네상스」의 출발점으로 가장 자주 인용되는 사건이 바로 2012년의 이 대회 결과입니다.

한 줄 요약

2012년 알렉스넷이 ImageNet에서 16%의 오류율로 압도적 우승하며 「깊은 CNN + GPU + 큰 데이터」 조합의 위력을 입증했고, 이로써 현대 컴퓨터 비전과 딥러닝 시대가 시작되었습니다.

더 알아볼 것

- 페이페이 리와 ImageNet의 탄생

- Top-1 vs Top-5 정확도

- ImageNet의 라벨 오류와 비판

번호	제목	글쓴이	작성일	조회
70	사전학습(pre-training)과 미세조정(fine-tuning)	너구리	26/04/27	20
69	인코더-디코더 구조 정리	곰돌이	26/04/27	20
68	위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가	햇살이	26/04/27	23
67	Multi-head attention — 여러 시각으로 동시에 보기	다람쥐	26/04/27	20
66	Self-attention — 한 문장 안에서 단어가 서로 보는 법	곰돌이	26/04/27	22
65	Transformer가 RNN을 대체한 이유	별님이	26/04/27	31
64	어텐션(attention) 메커니즘 한 그림으로	너구리	26/04/27	51
63	시퀀스-투-시퀀스(seq2seq) 모델	구름이	26/04/27	22
62	GRU — LSTM을 단순화한 변형	햇살이	26/04/27	19
61	LSTM — RNN의 장기 기억 한계 극복	부엉이	26/04/27	20
60	순환 신경망(RNN)이란	다람쥐	26/04/27	19
59	잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유	구름이	26/04/27	22
58	VGG·GoogLeNet·ResNet 한눈에	곰돌이	26/04/27	30
57	ImageNet과 알렉스넷의 의미 다시 보기	너구리	26/04/27	22
56	CNN 핵심 — 합성곱·풀링·스트라이드	구름이	26/04/27	19
55	합성곱 신경망(CNN)이란	구름이	26/04/27	21
54	가중치 초기화 — Xavier·He	곰돌이	26/04/27	23
53	배치 정규화(batch normalization)	부엉이	26/04/27	20
52	드롭아웃(dropout) — 과적합 방지의 정석	곰돌이	26/04/27	21
51	배치(batch)와 에폭(epoch)의 의미	토순이	26/04/27	21
50	옵티마이저 — SGD·Adam·AdamW 비교	토순이	26/04/27	23
49	역전파(backpropagation) 알고리즘	야옹이	26/04/27	18
48	활성화 함수 — ReLU·Sigmoid·Tanh·GELU	햇살이	26/04/27	24
47	인공 신경망의 기본 구조	야옹이	26/04/27	24
46	퍼셉트론에서 딥러닝까지의 여정	햇살이	26/04/27	22
45	차원 축소(PCA·t-SNE·UMAP) 한눈에	별님이	26/04/27	21
44	데이터 전처리 — 결측치·이상치·표준화	토순이	26/04/27	19
43	ROC 곡선과 AUC	너구리	26/04/27	45
42	혼동 행렬(confusion matrix) 읽는 법	햇살이	26/04/27	19
41	정확도·정밀도·재현율·F1 — 분류 지표 한눈에	다람쥐	26/04/27	20

번호

제목

글쓴이

작성일

조회

사전학습(pre-training)과 미세조정(fine-tuning)

너구리

26/04/27

인코더-디코더 구조 정리

곰돌이

26/04/27

위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가

햇살이

26/04/27

Multi-head attention — 여러 시각으로 동시에 보기

다람쥐

26/04/27

Self-attention — 한 문장 안에서 단어가 서로 보는 법

곰돌이

26/04/27

Transformer가 RNN을 대체한 이유

별님이

26/04/27

어텐션(attention) 메커니즘 한 그림으로

너구리

26/04/27

시퀀스-투-시퀀스(seq2seq) 모델

구름이

26/04/27

GRU — LSTM을 단순화한 변형

햇살이

26/04/27

LSTM — RNN의 장기 기억 한계 극복

부엉이

26/04/27

순환 신경망(RNN)이란

다람쥐

26/04/27

잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유

구름이

26/04/27

VGG·GoogLeNet·ResNet 한눈에

곰돌이

26/04/27

ImageNet과 알렉스넷의 의미 다시 보기

너구리

26/04/27

CNN 핵심 — 합성곱·풀링·스트라이드

구름이

26/04/27

합성곱 신경망(CNN)이란

구름이

26/04/27

가중치 초기화 — Xavier·He

곰돌이

26/04/27

배치 정규화(batch normalization)

부엉이

26/04/27

드롭아웃(dropout) — 과적합 방지의 정석

곰돌이

26/04/27

배치(batch)와 에폭(epoch)의 의미

토순이

26/04/27

옵티마이저 — SGD·Adam·AdamW 비교

토순이

26/04/27

역전파(backpropagation) 알고리즘

야옹이

26/04/27

활성화 함수 — ReLU·Sigmoid·Tanh·GELU

햇살이

26/04/27

인공 신경망의 기본 구조

야옹이

26/04/27

퍼셉트론에서 딥러닝까지의 여정

햇살이

26/04/27

차원 축소(PCA·t-SNE·UMAP) 한눈에

별님이

26/04/27

데이터 전처리 — 결측치·이상치·표준화

토순이

26/04/27

ROC 곡선과 AUC

너구리

26/04/27

혼동 행렬(confusion matrix) 읽는 법

햇살이

26/04/27

정확도·정밀도·재현율·F1 — 분류 지표 한눈에

다람쥐

26/04/27