배치 정규화(batch normalization)

부엉이 | 2026.04.27 03:05:29

조회 21 | 추천 0

배치 정규화(BatchNorm)는 2015년 구글의 세르게이 이오페와 크리스천 세게디가 제안한 기법으로, 「각 층의 입력을 매 배치마다 평균 0·표준편차 1로 정규화하는」 방식입니다.

이 단순한 아이디어가 깊은 신경망 학습을 극적으로 안정시켰습니다.

배경에는 「내부 공변량 변화(internal covariate shift)」라는 문제가 있습니다.

신경망의 깊은 층은 앞 층의 출력을 입력으로 받는데, 학습이 진행되면서 앞 층의 출력 분포가 계속 바뀝니다.

깊은 층 입장에서는 매번 다른 분포의 입력에 적응해야 하니 학습이 느리고 불안정해집니다.

BatchNorm은 매 층의 입력을 「오늘 모인 미니배치의 평균과 표준편차」로 정규화해 분포를 일정하게 유지해 줍니다.

비유하자면 「학생들에게 매번 다른 양의 음식을 주는 대신, 매번 같은 양의 식판으로 통일해 주는 일」과 같습니다.

BatchNorm의 효과는 극적입니다.

학습 속도가 빨라지고, 더 큰 학습률을 안전하게 쓸 수 있으며, 일종의 정규화 효과까지 더해져 드롭아웃의 필요성을 일부 대체합니다.

CNN에서는 거의 표준으로 자리잡았습니다.

단점도 있습니다.

배치 크기가 너무 작으면(1~4) 통계 추정이 불안정해 효과가 떨어집니다.

그래서 작은 배치 환경에서는 LayerNorm(층마다 정규화), GroupNorm(그룹별 정규화) 같은 대안이 쓰입니다.

특히 Transformer 계열은 LayerNorm을 표준으로 씁니다.

한 줄 요약

BatchNorm은 매 층의 입력을 미니배치 통계로 정규화해 학습을 빠르고 안정적으로 만듭니다.

Transformer는 LayerNorm을, 작은 배치에서는 GroupNorm을 대신 씁니다.

더 알아볼 것

- LayerNorm vs BatchNorm — Transformer가 선택한 길

- RMSNorm — Llama가 채택한 더 단순한 변형

- BN의 학습/추론 모드 전환

번호	제목	글쓴이	작성일	조회
70	사전학습(pre-training)과 미세조정(fine-tuning)	너구리	26/04/27	20
69	인코더-디코더 구조 정리	곰돌이	26/04/27	21
68	위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가	햇살이	26/04/27	23
67	Multi-head attention — 여러 시각으로 동시에 보기	다람쥐	26/04/27	21
66	Self-attention — 한 문장 안에서 단어가 서로 보는 법	곰돌이	26/04/27	22
65	Transformer가 RNN을 대체한 이유	별님이	26/04/27	32
64	어텐션(attention) 메커니즘 한 그림으로	너구리	26/04/27	51
63	시퀀스-투-시퀀스(seq2seq) 모델	구름이	26/04/27	23
62	GRU — LSTM을 단순화한 변형	햇살이	26/04/27	20
61	LSTM — RNN의 장기 기억 한계 극복	부엉이	26/04/27	21
60	순환 신경망(RNN)이란	다람쥐	26/04/27	19
59	잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유	구름이	26/04/27	22
58	VGG·GoogLeNet·ResNet 한눈에	곰돌이	26/04/27	31
57	ImageNet과 알렉스넷의 의미 다시 보기	너구리	26/04/27	22
56	CNN 핵심 — 합성곱·풀링·스트라이드	구름이	26/04/27	19
55	합성곱 신경망(CNN)이란	구름이	26/04/27	21
54	가중치 초기화 — Xavier·He	곰돌이	26/04/27	24
53	배치 정규화(batch normalization)	부엉이	26/04/27	21
52	드롭아웃(dropout) — 과적합 방지의 정석	곰돌이	26/04/27	21
51	배치(batch)와 에폭(epoch)의 의미	토순이	26/04/27	22
50	옵티마이저 — SGD·Adam·AdamW 비교	토순이	26/04/27	24
49	역전파(backpropagation) 알고리즘	야옹이	26/04/27	18
48	활성화 함수 — ReLU·Sigmoid·Tanh·GELU	햇살이	26/04/27	25
47	인공 신경망의 기본 구조	야옹이	26/04/27	25
46	퍼셉트론에서 딥러닝까지의 여정	햇살이	26/04/27	22
45	차원 축소(PCA·t-SNE·UMAP) 한눈에	별님이	26/04/27	22
44	데이터 전처리 — 결측치·이상치·표준화	토순이	26/04/27	20
43	ROC 곡선과 AUC	너구리	26/04/27	46
42	혼동 행렬(confusion matrix) 읽는 법	햇살이	26/04/27	19
41	정확도·정밀도·재현율·F1 — 분류 지표 한눈에	다람쥐	26/04/27	20

번호

제목

글쓴이

작성일

조회

사전학습(pre-training)과 미세조정(fine-tuning)

너구리

26/04/27

인코더-디코더 구조 정리

곰돌이

26/04/27

위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가

햇살이

26/04/27

Multi-head attention — 여러 시각으로 동시에 보기

다람쥐

26/04/27

Self-attention — 한 문장 안에서 단어가 서로 보는 법

곰돌이

26/04/27

Transformer가 RNN을 대체한 이유

별님이

26/04/27

어텐션(attention) 메커니즘 한 그림으로

너구리

26/04/27

시퀀스-투-시퀀스(seq2seq) 모델

구름이

26/04/27

GRU — LSTM을 단순화한 변형

햇살이

26/04/27

LSTM — RNN의 장기 기억 한계 극복

부엉이

26/04/27

순환 신경망(RNN)이란

다람쥐

26/04/27

잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유

구름이

26/04/27

VGG·GoogLeNet·ResNet 한눈에

곰돌이

26/04/27

ImageNet과 알렉스넷의 의미 다시 보기

너구리

26/04/27

CNN 핵심 — 합성곱·풀링·스트라이드

구름이

26/04/27

합성곱 신경망(CNN)이란

구름이

26/04/27

가중치 초기화 — Xavier·He

곰돌이

26/04/27

배치 정규화(batch normalization)

부엉이

26/04/27

드롭아웃(dropout) — 과적합 방지의 정석

곰돌이

26/04/27

배치(batch)와 에폭(epoch)의 의미

토순이

26/04/27

옵티마이저 — SGD·Adam·AdamW 비교

토순이

26/04/27

역전파(backpropagation) 알고리즘

야옹이

26/04/27

활성화 함수 — ReLU·Sigmoid·Tanh·GELU

햇살이

26/04/27

인공 신경망의 기본 구조

야옹이

26/04/27

퍼셉트론에서 딥러닝까지의 여정

햇살이

26/04/27

차원 축소(PCA·t-SNE·UMAP) 한눈에

별님이

26/04/27

데이터 전처리 — 결측치·이상치·표준화

토순이

26/04/27

ROC 곡선과 AUC

너구리

26/04/27

혼동 행렬(confusion matrix) 읽는 법

햇살이

26/04/27

정확도·정밀도·재현율·F1 — 분류 지표 한눈에

다람쥐

26/04/27