BERT(Bidirectional Encoder Representations from Transformers, 2018, Google)는 자연어 이해의 판도를 바꾼 모델입니다.
Transformer의 인코더 부분만으로 만들어졌고, 「양방향 문맥」을 동시에 보는 첫 대규모 사전학습 모델이었습니다.
BERT의 핵심 학습 과제는 「마스크드 언어 모델링(MLM)」입니다.
문장의 단어 15%를 무작위로 가린 뒤 모델에게 그 단어를 맞히게 하는 빈칸 채우기 과제입니다.
「나는 ___를 마셨다」에서 빈칸을 채우려면 양옆의 모든 문맥을 동시에 봐야 하므로, 모델이 자연스럽게 양방향 문맥 이해를 익힙니다.
비유하자면 BERT는 「문장을 처음부터 끝까지 한 번에 읽고 빈칸 퀴즈를 푸는 학생」과 같습니다.
GPT가 「왼쪽에서 오른쪽으로 한 단어씩 읽으며 다음 단어를 예측하는」 학생이라면, BERT는 「전체를 보고 부분의 의미를 파악하는」 학생입니다.
BERT는 등장 후 거의 모든 NLP 벤치마크의 신기록을 갈아치웠습니다.
질문응답, 감정 분석, 문장 분류, 명명된 개체 인식 등에서 사전학습된 BERT를 가져와 약간의 미세조정만 하면 최첨단 성능이 나오는 시대를 열었습니다.
BERT는 텍스트 「이해」에 강하지만 「생성」은 잘 못 합니다.
양방향 구조라 다음 단어를 차례로 만들어 내는 일에 부적합하기 때문입니다.
그래서 GPT 같은 디코더 모델이 생성 분야의 주류가 된 후, BERT는 검색·분류·임베딩 같은 「이해」 작업에 특화되어 자리잡았습니다.
한 줄 요약
BERT는 Transformer 인코더로 만든 양방향 언어 이해 모델로, 마스크드 언어 모델링으로 사전학습됩니다.
검색·분류·임베딩 같은 이해 작업에 강합니다.
더 알아볼 것
- NSP(Next Sentence Prediction) — BERT의 두 번째 과제
- DistilBERT·ALBERT·RoBERTa — BERT 변종들
- BERT vs GPT — 두 패러다임의 분화