잔차 연결(residual connection 또는 skip connection)은 2015년 ResNet과 함께 등장한 아이디어로, 「층의 출력에 그 층의 입력을 그대로 더해 다음 층으로 보내는」 매우 단순한 구조입니다.
이 작은 변화가 깊은 신경망의 모든 것을 바꿨습니다.
ResNet 이전까지 「층을 더 쌓으면 더 좋아질 것」이라는 통념과 달리, 56층 망이 20층 망보다 오히려 정확도가 낮은 현상이 관찰됐습니다.
「그래디언트 소실」 때문에 깊은 층까지 학습 신호가 닿지 못한 것입니다.
단순한 더하기 한 줄이 이 문제를 풀었습니다.
수식으로는 「output = F(x) + x」 한 줄입니다.
F(x)는 합성곱·활성화로 이루어진 일반적인 층이고, 거기에 입력 x를 그대로 더해 다음 층으로 보냅니다.
이렇게 하면 학습 신호(그래디언트)가 합성곱 경로 외에도 「더하기 경로」를 통해 깊은 층까지 흐를 수 있습니다.
비유하자면 잔차 연결은 「고층 빌딩에 엘리베이터를 설치하는 일」과 같습니다.
그 전까지는 신호가 한 층 한 층 계단을 올라가다 지치는 셈이었는데, 엘리베이터(스킵 연결)가 생기면서 1층의 신호가 100층까지 손상 없이 도달할 수 있게 된 것입니다.
잔차 연결의 위력 덕분에 이미지 분야는 152층, 1000층까지의 깊이가 가능해졌고, 자연어 분야의 Transformer도 잔차 연결 없이는 작동하지 않습니다.
GPT-4 같은 거대 LLM도 모든 층 사이에 잔차 연결이 들어 있어, 사실상 「현대 모든 깊은 신경망의 표준 부품」이 되었습니다.
한 줄 요약
잔차 연결은 「층의 출력에 입력을 그대로 더하는」 단순한 아이디어로, 깊은 신경망의 학습 신호 전달을 보장해 152층·1000층 망을 가능하게 했습니다.
모든 현대 깊은 모델의 표준 부품입니다.
더 알아볼 것
- DenseNet — 모든 층이 모든 층을 본다
- Highway Networks — 잔차 연결의 선구자
- Transformer의 잔차 연결과 LayerNorm