BERT가 등장한 뒤 그 모델을 개선하거나 경량화하려는 다양한 후속 연구가 쏟아졌습니다.
그중 가장 영향력 있는 세 모델 — RoBERTa, ALBERT, DistilBERT를 알면 BERT 가족의 큰 그림이 잡힙니다.
RoBERTa(2019, Facebook)는 「BERT를 더 잘 학습시키면 어디까지 갈 수 있는가」를 보여 준 모델입니다.
모델 구조는 BERT와 거의 같지만 학습 데이터를 10배 늘리고, 배치 크기를 키우고, 다음 문장 예측(NSP) 과제를 빼고, 학습 시간도 길게 잡았습니다.
결과는 BERT를 모든 벤치마크에서 능가했고, 「레시피의 중요성」을 증명했습니다.
ALBERT(2019, Google)는 BERT의 「파라미터 효율」을 개선한 모델입니다.
같은 가중치를 여러 층이 공유하게 만들어 파라미터 수를 BERT-large 대비 1/9로 줄였습니다.
그러면서도 비슷하거나 더 좋은 성능을 냈습니다.
「깊이는 유지하되 가중치를 재사용한다」는 아이디어가 핵심입니다.
DistilBERT(2019, Hugging Face)는 BERT의 「지식 증류(knowledge distillation)」 버전입니다.
큰 BERT가 「선생님」이 되어 작은 학생 모델에게 자기 지식을 전수하는 방식으로, 모델 크기를 40% 줄이면서도 성능의 97%를 유지했습니다.
모바일·임베디드 환경에서 자주 쓰입니다.
이 세 모델의 발전 방향은 각각 「더 잘 학습」(RoBERTa), 「더 효율적 구조」(ALBERT), 「더 작은 모델」(DistilBERT)로 정리할 수 있습니다.
BERT 가족의 다양한 후속편들 가운데 가장 실용적이고 영향력 있는 세 모델로 꼽힙니다.
한 줄 요약
RoBERTa는 BERT를 더 잘 학습한 버전, ALBERT는 가중치 공유로 효율을 높인 버전, DistilBERT는 지식 증류로 크기를 줄인 버전입니다.
각자 「학습·구조·증류」의 다른 방향을 보여 줍니다.
더 알아볼 것
- 지식 증류(knowledge distillation)의 원리
- ELECTRA — 더 효율적 학습 과제
- TinyBERT·MobileBERT — 더 작은 BERT들