GRU(Gated Recurrent Unit)는 2014년 조경현 교수 등이 제안한 RNN 변형으로, 「LSTM의 핵심 아이디어를 유지하면서 게이트 수를 3개에서 2개로 줄인」 모델입니다.
이름 그대로 「게이트가 있는 순환 단위」입니다.
LSTM과의 가장 큰 차이는 두 가지입니다.
첫째, 셀 상태와 은닉 상태를 합쳐 하나로 만들었습니다.
둘째, 입력 게이트와 망각 게이트를 「업데이트 게이트」 하나로 합쳤습니다.
그 결과 파라미터가 약 25% 줄고 학습 속도가 살짝 빨라집니다.
흥미로운 점은 LSTM과 GRU의 성능 차이가 대부분의 작업에서 매우 작다는 점입니다.
어떤 데이터에서는 LSTM이, 어떤 데이터에서는 GRU가 약간 더 잘 작동합니다.
그래서 「둘 다 시도해 보고 더 나은 쪽을 쓰라」는 조언이 흔합니다.
비유하자면 LSTM은 「세 개의 수도꼭지를 가진 정수기」, GRU는 「두 개의 수도꼭지로 같은 일을 하는 더 간단한 정수기」와 같습니다.
둘 다 깨끗한 물을 만들지만 GRU 쪽이 부품이 적어 만들기 쉽습니다.
GRU도 LSTM과 마찬가지로 2010년대 후반 자연어·음성 분야에서 활발히 쓰였지만, Transformer 등장 이후 새 프로젝트에서는 거의 쓰이지 않습니다.
다만 시계열 예측, 작은 모델이 필요한 임베디드 환경 등에서는 여전히 유효한 선택지입니다.
한 줄 요약
GRU는 LSTM의 게이트를 2개로 줄여 단순화한 RNN 변형이며, 성능은 LSTM과 거의 비슷합니다.
두 모델 모두 Transformer 등장 후 자연어 분야의 자리는 내줬지만 시계열 등에서는 여전히 쓰입니다.
더 알아볼 것
- 조경현 교수와 GRU 논문
- 리셋 게이트와 업데이트 게이트
- GRU와 LSTM의 비교 벤치마크