VGGNet(2014, 옥스퍼드 비주얼 지오메트리 그룹)은 AlexNet 다음으로 가장 영향력 있는 CNN 모델 중 하나입니다.
「모든 합성곱을 3×3 작은 필터로 통일하고 깊이만 키우자」는 단순한 철학을 일관되게 밀어붙였습니다.
구조는 매우 깔끔합니다.
VGG-16(16층)과 VGG-19(19층) 두 변종이 가장 유명하며, 둘 다 「3×3 합성곱 → 3×3 합성곱 → 풀링」 같은 패턴이 반복되는 구조입니다.
코드가 간단하고 이해하기 쉬워 입문자가 가장 자주 만나는 CNN 모델입니다.
VGGNet이 보여 준 가장 큰 통찰은 「작은 필터 여러 개를 쌓는 게 큰 필터 한 개보다 낫다」는 점입니다.
3×3 필터 두 개를 쌓으면 5×5 필터 하나와 같은 영역을 보지만 파라미터가 적고, 그 사이에 비선형성이 한 번 더 들어가 표현력이 강해집니다.
비유하자면 VGGNet은 「큰 망치 한 번보다 작은 망치 여러 번」 철학과 같습니다.
같은 일을 작은 단위로 여러 번 수행하면 정밀하고 효율적이라는 직관입니다.
단점은 모델이 매우 무겁다는 점입니다.
VGG-16은 약 1억 4천만 개의 파라미터를 가져 메모리와 연산 부담이 큽니다.
그래서 산업 현장에서는 더 가벼운 ResNet·MobileNet으로 옮겨 갔지만, 「특징 추출용 백본」으로는 지금도 활발히 쓰입니다.
한 줄 요약
VGGNet은 모든 합성곱을 3×3으로 통일하고 깊이를 19층까지 키운 단순한 구조의 CNN으로, 「작은 필터를 여러 번 쌓는 게 큰 필터 한 개보다 낫다」는 통찰을 보여 줬습니다.
더 알아볼 것
- VGG-16 vs VGG-19
- Perceptual Loss와 VGG의 관계
- VGG가 산업 현장에서 무거운 이유