인공지능(AI)

그래디언트 소실·폭주 문제와 해법

부엉이 | 2026.04.27 03:05:42

조회 30 | 추천 0

깊은 신경망의 학습이 어려운 가장 큰 두 가지 이유가 「그래디언트 소실(vanishing gradient)」과 「그래디언트 폭주(exploding gradient)」 문제입니다.

학습 신호가 깊은 층까지 전달되는 과정에서 너무 작아지거나 너무 커져 학습이 무너지는 현상입니다.

그래디언트는 역전파를 통해 출력에서 입력 쪽으로 거슬러 올라가는데, 매 층마다 가중치 행렬을 곱해야 합니다.

가중치들의 평균 크기가 1보다 작으면 100층을 거치면서 0에 가까워지고(소실), 1보다 크면 발산합니다(폭주).

비유하자면 그래디언트 소실은 「100미터 떨어진 사람에게 귓속말을 하다 보니 중간에 소리가 사라지는 일」과 같고, 폭주는 「귓속말이 어느 순간부터 메아리쳐 비명 수준이 되는 일」과 같습니다.

둘 다 의사소통(학습)이 무너집니다.

이를 해결하는 핵심 기법들은 다음과 같습니다.

첫째, ReLU 활성화 — 시그모이드의 작은 그래디언트 문제를 회피합니다.

둘째, 가중치 초기화 (Xavier·He) — 처음부터 적절한 크기로 시작합니다.

셋째, 배치 정규화·LayerNorm — 매 층의 입력 분포를 안정시킵니다.

넷째, 잔차 연결(ResNet의 skip connection) — 그래디언트가 깊은 층까지 직통으로 흐르게 합니다.

그래디언트 폭주에는 「그래디언트 클리핑(gradient clipping)」이 가장 단순하고 효과적입니다.

그래디언트의 크기가 일정 임계값을 넘으면 강제로 잘라 버리는 방식이며, RNN·Transformer 학습에서 표준으로 쓰입니다.

이런 기법들의 결합으로 오늘날의 1,000층 망과 1조 파라미터 LLM 학습이 가능해졌습니다.

한 줄 요약

그래디언트 소실·폭주는 깊은 신경망의 가장 큰 학습 장벽이었으며, ReLU·He 초기화·BatchNorm·잔차 연결·그래디언트 클리핑 같은 기법들이 차례로 이 문제를 해결해 왔습니다.

더 알아볼 것

- 그래디언트 클리핑의 기법

- RNN의 그래디언트 소실 해결책 — LSTM

- 왜 시그모이드가 깊은 망에 부적합한가

아뢰옵기도 송구한 히미즈의 신이시여 — 스즈메의 문단속 [1]

장례식은 반드시 가야하는 이유.jpg [1]

목록보기

번호	제목	글쓴이	작성일	조회
100	SAM — Meta의 「무엇이든 분할」 모델	구름이	26/04/27	20
99	Whisper — OpenAI의 음성 인식 모델	다람쥐	26/04/27	19
98	Vision Transformer(ViT) — 이미지에 트랜스포머를	곰돌이	26/04/27	19
97	CLIP — 이미지와 텍스트의 다리	구름이	26/04/27	20
96	RoBERTa·ALBERT·DistilBERT 한눈에	구름이	26/04/27	17
95	BART — 노이즈 제거식 사전학습	구름이	26/04/27	17
94	T5 — 모든 NLP 작업을 텍스트→텍스트로	구름이	26/04/27	17
93	GPT 시리즈의 진화 — 1에서 4까지	부엉이	26/04/27	19
92	BERT — 양방향 언어 이해의 정석	별님이	26/04/27	17
91	Midjourney의 강점	부엉이	26/04/27	18
90	DALL-E 시리즈의 발전	다람쥐	26/04/27	18
89	Stable Diffusion이 이미지를 만드는 과정	너구리	26/04/27	21
88	Diffusion 모델의 원리	구름이	26/04/27	18
87	CycleGAN — 짝 없는 이미지 변환	구름이	26/04/27	17
86	StyleGAN — 가짜 얼굴을 진짜처럼	멍뭉이	26/04/27	21
85	GAN — 두 신경망의 대결	너구리	26/04/27	28
84	Mask R-CNN — 객체와 그 모양까지	햇살이	26/04/27	30
83	YOLO — 한 번 보고 객체를 다 찾는다	구름이	26/04/27	18
82	U-Net — 의료 영상에 강한 이유	부엉이	26/04/27	18
81	EfficientNet — 자원 효율의 정석	다람쥐	26/04/27	18
80	DenseNet — 모든 레이어가 모두를 본다	별님이	26/04/27	23
79	ResNet — 잔차 연결의 위력	구름이	26/04/27	19
78	GoogLeNet과 인셉션 모듈	야옹이	26/04/27	21
77	VGGNet — 단순함의 미덕	별님이	26/04/27	19
76	AlexNet — 딥러닝 르네상스의 출발	구름이	26/04/27	19
75	토크나이저(tokenizer) — BPE·WordPiece·SentencePiece	햇살이	26/04/27	29
74	임베딩(embedding) — 단어를 벡터로	햇살이	26/04/27	30
73	그래디언트 소실·폭주 문제와 해법	부엉이	26/04/27	30
72	데이터 증강(data augmentation) — 부풀려서 학습하기	다람쥐	26/04/27	24
71	전이학습(transfer learning) — 적은 데이터로 좋은 모델	토순이	26/04/27	21

글쓰기

신고하기

신고 사유를 선택해 주세요.