알렉스넷 이후 CNN은 매년 더 깊어지고 더 정교해졌습니다.
그 발전사의 결정적 마디인 VGG·GoogLeNet·ResNet을 알면 컴퓨터 비전 모델의 큰 흐름을 이해할 수 있습니다.
VGGNet(2014, 옥스퍼드)은 「단순함의 미덕」을 보여 준 모델입니다.
모든 합성곱을 3×3 크기의 작은 필터로 통일하고, 최대 19층까지 깊게 쌓는 단순한 구조였습니다.
코드가 깔끔하고 이해하기 쉬워 입문자가 가장 자주 만나는 CNN이며, 지금도 다양한 작업의 백본으로 쓰입니다.
GoogLeNet(2014, 구글)은 「인셉션 모듈(Inception Module)」이라는 새 아이디어로 등장했습니다.
한 층에서 1×1, 3×3, 5×5 필터와 풀링을 동시에 적용한 뒤 결과를 합치는 구조로, 같은 정확도를 내면서도 파라미터 수를 크게 줄였습니다.
22층 모델임에도 VGG보다 가벼웠습니다.
ResNet(2015, 마이크로소프트)은 게임을 바꾼 모델입니다.
「잔차 연결(residual connection)」을 도입해 152층(이후 1000층까지)이라는 전대미문의 깊이를 학습 가능하게 만들었습니다.
ImageNet에서 사람보다 낮은 오류율(3.57%)을 처음으로 달성했습니다.
이 세 모델은 컴퓨터 비전의 「세 단계 진화」를 보여 줍니다.
VGG는 「깊이의 단순함」, GoogLeNet은 「효율의 정교함」, ResNet은 「잔차 연결로 진짜 깊이를 가능하게 한 도약」입니다.
이후 모든 깊은 신경망(자연어의 Transformer 포함)이 잔차 연결의 아이디어를 빌려 쓰게 됩니다.
한 줄 요약
VGG는 단순함, GoogLeNet은 효율, ResNet은 잔차 연결로 「진짜 깊이」를 가능케 한 모델입니다.
이 세 단계가 현대 컴퓨터 비전의 토대를 이뤘습니다.
더 알아볼 것
- 인셉션 모듈의 작동 원리
- ResNet 변종 — DenseNet·Wide ResNet
- EfficientNet — ResNet 이후의 효율 최적화