GoogLeNet(2014)은 구글이 만든 22층 CNN으로, ILSVRC 2014에서 우승한 모델입니다.
같은 해 등장한 VGG보다 깊으면서도 파라미터 수는 약 12분의 1(500만 개)에 불과해, 「깊이와 효율을 동시에」 잡은 기념비적 모델로 평가됩니다.
핵심 아이디어는 「인셉션 모듈(Inception Module)」입니다.
한 층에서 1×1, 3×3, 5×5 필터와 풀링을 동시에 적용한 뒤 결과를 합치는 구조입니다.
「어느 크기의 필터가 좋을지 모르겠으니 다 써 보자」는 발상에서 출발했습니다.
그런데 이 단순한 발상에는 큰 비용이 따릅니다.
5×5 필터는 계산량이 많아 그대로 쓰면 모델이 매우 무거워집니다.
GoogLeNet은 「1×1 합성곱으로 채널 수를 먼저 줄이고 나서 5×5를 적용」하는 영리한 트릭으로 비용을 크게 낮췄습니다.
비유하자면 인셉션 모듈은 「한 가게에서 김치찌개·된장찌개·순두부찌개를 모두 만드는 메뉴판」과 같습니다.
손님이 어느 메뉴를 좋아할지 모르니 다 준비해 두고, 1×1 합성곱이라는 「공통 식자재 손질」 단계를 두어 효율을 높였습니다.
GoogLeNet의 후속 모델로 Inception v2/v3/v4가 이어졌고, 결국 Inception-ResNet으로 ResNet의 잔차 연결과 결합되었습니다.
인셉션 아이디어 자체는 현대 비전 모델 설계에도 큰 영향을 남겼습니다.
한 줄 요약
GoogLeNet의 인셉션 모듈은 「1×1, 3×3, 5×5 필터를 한 층에서 동시에 사용하고 1×1 합성곱으로 비용을 낮추는」 구조로, 깊이와 효율을 동시에 잡은 결정적 모델입니다.
더 알아볼 것
- 1×1 합성곱의 마법
- Inception v3·v4의 발전
- Auxiliary Classifier — GoogLeNet의 보조 출력