드롭아웃(dropout) — 과적합 방지의 정석

곰돌이 | 2026.04.27 03:05:28

조회 22 | 추천 0

드롭아웃(dropout)은 「학습 중 무작위로 일부 뉴런의 출력을 0으로 만드는」 단순하지만 매우 효과적인 정규화 기법입니다.

2012년 제프리 힌튼 그룹이 제안했으며, 알렉스넷의 성공에도 큰 역할을 했습니다.

직관적으로 풀자면 드롭아웃은 「매 스텝마다 신경망의 일부 뉴런을 무작위로 휴가 보내는 일」과 같습니다.

휴가 비율이 0.5라면 뉴런의 절반이 무작위로 작동하지 않게 됩니다.

모델은 「특정 뉴런 하나에 너무 의존하면 그 뉴런이 휴가 갔을 때 무너지므로」 자연스럽게 여러 뉴런에 책임을 분산하는 방향으로 학습됩니다.

또 다른 비유는 「매번 다른 학생들로 구성된 팀이 같은 시험을 보는」 모습입니다.

시험 때마다 일부 학생이 빠지므로 모든 학생이 어느 정도 균등하게 실력을 갖춰야 합니다.

결과적으로 학습된 신경망은 마치 「수많은 작은 신경망의 앙상블」처럼 동작합니다.

추론 단계에서는 드롭아웃을 끕니다.

모든 뉴런을 다 사용하되, 학습 때 출력의 평균이 절반이었으므로 출력값에 0.5(드롭아웃 확률)를 곱해 보정합니다(또는 학습 중에 1/(1-p)로 보정).

드롭아웃 비율은 보통 0.2~0.5 사이를 씁니다.

너무 높으면(0.7+) 모델이 학습을 거의 못 하고, 너무 낮으면(0.05) 정규화 효과가 미미합니다.

CNN에서는 0.2~0.3, 완전연결층에서는 0.5가 흔한 출발점입니다.

한 줄 요약

드롭아웃은 학습 중 무작위로 뉴런을 끄는 단순한 정규화로, 모델이 특정 뉴런에 의존하지 않게 만들어 과적합을 강력히 줄여 줍니다.

더 알아볼 것

- DropConnect — 가중치를 끄는 변형

- Spatial Dropout — CNN 전용 변형

- Monte Carlo Dropout — 추론 시 불확실성 측정에 활용

번호	제목	글쓴이	작성일	조회
70	사전학습(pre-training)과 미세조정(fine-tuning)	너구리	26/04/27	20
69	인코더-디코더 구조 정리	곰돌이	26/04/27	21
68	위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가	햇살이	26/04/27	23
67	Multi-head attention — 여러 시각으로 동시에 보기	다람쥐	26/04/27	21
66	Self-attention — 한 문장 안에서 단어가 서로 보는 법	곰돌이	26/04/27	22
65	Transformer가 RNN을 대체한 이유	별님이	26/04/27	32
64	어텐션(attention) 메커니즘 한 그림으로	너구리	26/04/27	51
63	시퀀스-투-시퀀스(seq2seq) 모델	구름이	26/04/27	23
62	GRU — LSTM을 단순화한 변형	햇살이	26/04/27	20
61	LSTM — RNN의 장기 기억 한계 극복	부엉이	26/04/27	21
60	순환 신경망(RNN)이란	다람쥐	26/04/27	19
59	잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유	구름이	26/04/27	22
58	VGG·GoogLeNet·ResNet 한눈에	곰돌이	26/04/27	31
57	ImageNet과 알렉스넷의 의미 다시 보기	너구리	26/04/27	22
56	CNN 핵심 — 합성곱·풀링·스트라이드	구름이	26/04/27	19
55	합성곱 신경망(CNN)이란	구름이	26/04/27	21
54	가중치 초기화 — Xavier·He	곰돌이	26/04/27	24
53	배치 정규화(batch normalization)	부엉이	26/04/27	21
52	드롭아웃(dropout) — 과적합 방지의 정석	곰돌이	26/04/27	22
51	배치(batch)와 에폭(epoch)의 의미	토순이	26/04/27	22
50	옵티마이저 — SGD·Adam·AdamW 비교	토순이	26/04/27	24
49	역전파(backpropagation) 알고리즘	야옹이	26/04/27	18
48	활성화 함수 — ReLU·Sigmoid·Tanh·GELU	햇살이	26/04/27	25
47	인공 신경망의 기본 구조	야옹이	26/04/27	25
46	퍼셉트론에서 딥러닝까지의 여정	햇살이	26/04/27	22
45	차원 축소(PCA·t-SNE·UMAP) 한눈에	별님이	26/04/27	22
44	데이터 전처리 — 결측치·이상치·표준화	토순이	26/04/27	20
43	ROC 곡선과 AUC	너구리	26/04/27	46
42	혼동 행렬(confusion matrix) 읽는 법	햇살이	26/04/27	19
41	정확도·정밀도·재현율·F1 — 분류 지표 한눈에	다람쥐	26/04/27	20

번호

제목

글쓴이

작성일

조회

사전학습(pre-training)과 미세조정(fine-tuning)

너구리

26/04/27

인코더-디코더 구조 정리

곰돌이

26/04/27

위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가

햇살이

26/04/27

Multi-head attention — 여러 시각으로 동시에 보기

다람쥐

26/04/27

Self-attention — 한 문장 안에서 단어가 서로 보는 법

곰돌이

26/04/27

Transformer가 RNN을 대체한 이유

별님이

26/04/27

어텐션(attention) 메커니즘 한 그림으로

너구리

26/04/27

시퀀스-투-시퀀스(seq2seq) 모델

구름이

26/04/27

GRU — LSTM을 단순화한 변형

햇살이

26/04/27

LSTM — RNN의 장기 기억 한계 극복

부엉이

26/04/27

순환 신경망(RNN)이란

다람쥐

26/04/27

잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유

구름이

26/04/27

VGG·GoogLeNet·ResNet 한눈에

곰돌이

26/04/27

ImageNet과 알렉스넷의 의미 다시 보기

너구리

26/04/27

CNN 핵심 — 합성곱·풀링·스트라이드

구름이

26/04/27

합성곱 신경망(CNN)이란

구름이

26/04/27

가중치 초기화 — Xavier·He

곰돌이

26/04/27

배치 정규화(batch normalization)

부엉이

26/04/27

드롭아웃(dropout) — 과적합 방지의 정석

곰돌이

26/04/27

배치(batch)와 에폭(epoch)의 의미

토순이

26/04/27

옵티마이저 — SGD·Adam·AdamW 비교

토순이

26/04/27

역전파(backpropagation) 알고리즘

야옹이

26/04/27

활성화 함수 — ReLU·Sigmoid·Tanh·GELU

햇살이

26/04/27

인공 신경망의 기본 구조

야옹이

26/04/27

퍼셉트론에서 딥러닝까지의 여정

햇살이

26/04/27

차원 축소(PCA·t-SNE·UMAP) 한눈에

별님이

26/04/27

데이터 전처리 — 결측치·이상치·표준화

토순이

26/04/27

ROC 곡선과 AUC

너구리

26/04/27

혼동 행렬(confusion matrix) 읽는 법

햇살이

26/04/27

정확도·정밀도·재현율·F1 — 분류 지표 한눈에

다람쥐

26/04/27