역전파(backpropagation) 알고리즘

야옹이 | 2026.04.27 03:05:26

조회 19 | 추천 0

역전파는 신경망 학습의 심장입니다.

「출력에서 발생한 오차를 입력 쪽으로 거슬러 올라가며, 각 가중치가 그 오차에 얼마만큼 기여했는지 계산하는 알고리즘」입니다.

이 정보가 있어야 가중치를 어느 방향으로 얼마나 옮길지 결정할 수 있습니다.

직관적으로 풀어 보겠습니다.

신경망이 「고양이 사진을 받아 「개일 확률 0.9」라 잘못 답했다고 합시다.

출력에서 큰 오차가 발생했고, 그 오차의 책임은 마지막 층의 가중치들에게도, 그 앞 층의 가중치들에게도, 결국 첫 층의 가중치들에게까지 분산되어 있습니다.

역전파는 「미분의 연쇄법칙(chain rule)」이라는 고등학교 미적분의 도구를 영리하게 사용합니다.

「출력의 오차가 마지막 층 가중치에 대해 어떻게 변하는가」 → 「마지막 층 출력이 그 앞 층 가중치에 대해 어떻게 변하는가」 → ...

이런 식으로 거슬러 올라가며 한 번씩 곱해 가는 것입니다.

비유하자면 역전파는 「긴 도미노 게임에서 마지막 도미노가 잘못 쓰러진 원인을 첫 도미노까지 거슬러 추적하는 일」과 같습니다.

각 도미노의 위치 변화가 다음 도미노를 얼마나 움직이는지 알면, 첫 도미노를 얼마나 움직여야 마지막을 바로잡을 수 있는지도 알 수 있습니다.

역전파의 발견(1986, 루멜하트·힌튼·윌리엄스의 논문) 덕분에 다층 신경망의 효율적 학습이 가능해졌고, 이것이 1980년대 후반 신경망의 두 번째 봄, 그리고 2010년대 딥러닝 시대의 토대가 됐습니다.

오늘날 PyTorch·TensorFlow는 이 역전파를 자동으로 처리해 줍니다(automatic differentiation).

한 줄 요약

역전파는 출력에서 발생한 오차를 입력 쪽으로 거슬러 올라가며 각 가중치의 기여를 미분의 연쇄법칙으로 계산하는 알고리즘이며, 다층 신경망 학습의 토대입니다.

더 알아볼 것

- 연쇄법칙(chain rule)의 직관적 이해

- 자동 미분(autograd)의 작동 원리

- 역전파 vs 정방향 미분의 차이

번호	제목	글쓴이	작성일	조회
70	사전학습(pre-training)과 미세조정(fine-tuning)	너구리	26/04/27	20
69	인코더-디코더 구조 정리	곰돌이	26/04/27	21
68	위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가	햇살이	26/04/27	24
67	Multi-head attention — 여러 시각으로 동시에 보기	다람쥐	26/04/27	21
66	Self-attention — 한 문장 안에서 단어가 서로 보는 법	곰돌이	26/04/27	22
65	Transformer가 RNN을 대체한 이유	별님이	26/04/27	32
64	어텐션(attention) 메커니즘 한 그림으로	너구리	26/04/27	52
63	시퀀스-투-시퀀스(seq2seq) 모델	구름이	26/04/27	23
62	GRU — LSTM을 단순화한 변형	햇살이	26/04/27	20
61	LSTM — RNN의 장기 기억 한계 극복	부엉이	26/04/27	21
60	순환 신경망(RNN)이란	다람쥐	26/04/27	20
59	잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유	구름이	26/04/27	23
58	VGG·GoogLeNet·ResNet 한눈에	곰돌이	26/04/27	31
57	ImageNet과 알렉스넷의 의미 다시 보기	너구리	26/04/27	22
56	CNN 핵심 — 합성곱·풀링·스트라이드	구름이	26/04/27	20
55	합성곱 신경망(CNN)이란	구름이	26/04/27	22
54	가중치 초기화 — Xavier·He	곰돌이	26/04/27	24
53	배치 정규화(batch normalization)	부엉이	26/04/27	21
52	드롭아웃(dropout) — 과적합 방지의 정석	곰돌이	26/04/27	22
51	배치(batch)와 에폭(epoch)의 의미	토순이	26/04/27	22
50	옵티마이저 — SGD·Adam·AdamW 비교	토순이	26/04/27	24
49	역전파(backpropagation) 알고리즘	야옹이	26/04/27	19
48	활성화 함수 — ReLU·Sigmoid·Tanh·GELU	햇살이	26/04/27	25
47	인공 신경망의 기본 구조	야옹이	26/04/27	25
46	퍼셉트론에서 딥러닝까지의 여정	햇살이	26/04/27	23
45	차원 축소(PCA·t-SNE·UMAP) 한눈에	별님이	26/04/27	22
44	데이터 전처리 — 결측치·이상치·표준화	토순이	26/04/27	20
43	ROC 곡선과 AUC	너구리	26/04/27	46
42	혼동 행렬(confusion matrix) 읽는 법	햇살이	26/04/27	19
41	정확도·정밀도·재현율·F1 — 분류 지표 한눈에	다람쥐	26/04/27	21

번호

제목

글쓴이

작성일

조회

사전학습(pre-training)과 미세조정(fine-tuning)

너구리

26/04/27

인코더-디코더 구조 정리

곰돌이

26/04/27

위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가

햇살이

26/04/27

Multi-head attention — 여러 시각으로 동시에 보기

다람쥐

26/04/27

Self-attention — 한 문장 안에서 단어가 서로 보는 법

곰돌이

26/04/27

Transformer가 RNN을 대체한 이유

별님이

26/04/27

어텐션(attention) 메커니즘 한 그림으로

너구리

26/04/27

시퀀스-투-시퀀스(seq2seq) 모델

구름이

26/04/27

GRU — LSTM을 단순화한 변형

햇살이

26/04/27

LSTM — RNN의 장기 기억 한계 극복

부엉이

26/04/27

순환 신경망(RNN)이란

다람쥐

26/04/27

잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유

구름이

26/04/27

VGG·GoogLeNet·ResNet 한눈에

곰돌이

26/04/27

ImageNet과 알렉스넷의 의미 다시 보기

너구리

26/04/27

CNN 핵심 — 합성곱·풀링·스트라이드

구름이

26/04/27

합성곱 신경망(CNN)이란

구름이

26/04/27

가중치 초기화 — Xavier·He

곰돌이

26/04/27

배치 정규화(batch normalization)

부엉이

26/04/27

드롭아웃(dropout) — 과적합 방지의 정석

곰돌이

26/04/27

배치(batch)와 에폭(epoch)의 의미

토순이

26/04/27

옵티마이저 — SGD·Adam·AdamW 비교

토순이

26/04/27

역전파(backpropagation) 알고리즘

야옹이

26/04/27

활성화 함수 — ReLU·Sigmoid·Tanh·GELU

햇살이

26/04/27

인공 신경망의 기본 구조

야옹이

26/04/27

퍼셉트론에서 딥러닝까지의 여정

햇살이

26/04/27

차원 축소(PCA·t-SNE·UMAP) 한눈에

별님이

26/04/27

데이터 전처리 — 결측치·이상치·표준화

토순이

26/04/27

ROC 곡선과 AUC

너구리

26/04/27

혼동 행렬(confusion matrix) 읽는 법

햇살이

26/04/27

정확도·정밀도·재현율·F1 — 분류 지표 한눈에

다람쥐

26/04/27