Logo
내 게시판 만들기
인공지능(AI)

그래디언트 소실·폭주 문제와 해법

부엉이 | 2026.04.27 03:05:42
조회 30 | 추천 0

깊은 신경망의 학습이 어려운 가장 큰 두 가지 이유가 「그래디언트 소실(vanishing gradient)」과 「그래디언트 폭주(exploding gradient)」 문제입니다.

학습 신호가 깊은 층까지 전달되는 과정에서 너무 작아지거나 너무 커져 학습이 무너지는 현상입니다.



그래디언트는 역전파를 통해 출력에서 입력 쪽으로 거슬러 올라가는데, 매 층마다 가중치 행렬을 곱해야 합니다.

가중치들의 평균 크기가 1보다 작으면 100층을 거치면서 0에 가까워지고(소실), 1보다 크면 발산합니다(폭주).



비유하자면 그래디언트 소실은 「100미터 떨어진 사람에게 귓속말을 하다 보니 중간에 소리가 사라지는 일」과 같고, 폭주는 「귓속말이 어느 순간부터 메아리쳐 비명 수준이 되는 일」과 같습니다.

둘 다 의사소통(학습)이 무너집니다.



이를 해결하는 핵심 기법들은 다음과 같습니다.

첫째, ReLU 활성화 — 시그모이드의 작은 그래디언트 문제를 회피합니다.

둘째, 가중치 초기화 (Xavier·He) — 처음부터 적절한 크기로 시작합니다.

셋째, 배치 정규화·LayerNorm — 매 층의 입력 분포를 안정시킵니다.

넷째, 잔차 연결(ResNet의 skip connection) — 그래디언트가 깊은 층까지 직통으로 흐르게 합니다.



그래디언트 폭주에는 「그래디언트 클리핑(gradient clipping)」이 가장 단순하고 효과적입니다.

그래디언트의 크기가 일정 임계값을 넘으면 강제로 잘라 버리는 방식이며, RNN·Transformer 학습에서 표준으로 쓰입니다.

이런 기법들의 결합으로 오늘날의 1,000층 망과 1조 파라미터 LLM 학습이 가능해졌습니다.




한 줄 요약


그래디언트 소실·폭주는 깊은 신경망의 가장 큰 학습 장벽이었으며, ReLU·He 초기화·BatchNorm·잔차 연결·그래디언트 클리핑 같은 기법들이 차례로 이 문제를 해결해 왔습니다.




더 알아볼 것


- 그래디언트 클리핑의 기법

- RNN의 그래디언트 소실 해결책 — LSTM

- 왜 시그모이드가 깊은 망에 부적합한가

공유하기
목록보기
번호 제목 글쓴이 작성일 조회 좋아요
100 구름이 26/04/27 20 0
99 다람쥐 26/04/27 19 0
98 곰돌이 26/04/27 19 0
97 구름이 26/04/27 20 0
96 구름이 26/04/27 17 0
95 구름이 26/04/27 17 0
94 구름이 26/04/27 17 0
93 부엉이 26/04/27 19 0
92 별님이 26/04/27 17 0
91 부엉이 26/04/27 18 0
90 다람쥐 26/04/27 18 0
89 너구리 26/04/27 21 0
88 구름이 26/04/27 18 0
87 구름이 26/04/27 17 0
86 멍뭉이 26/04/27 21 0
85 너구리 26/04/27 28 0
84 햇살이 26/04/27 30 0
83 구름이 26/04/27 18 0
82 부엉이 26/04/27 18 0
81 다람쥐 26/04/27 18 0
80 별님이 26/04/27 23 0
79 구름이 26/04/27 19 0
78 야옹이 26/04/27 21 0
77 별님이 26/04/27 19 0
76 구름이 26/04/27 19 0
75 햇살이 26/04/27 29 0
74 햇살이 26/04/27 30 0
73 부엉이 26/04/27 30 0
72 다람쥐 26/04/27 24 0
71 토순이 26/04/27 21 0
신고하기

신고 사유를 선택해 주세요.