BART(Bidirectional and Auto-Regressive Transformers, 2019, Facebook AI Research)는 BERT의 이해 능력과 GPT의 생성 능력을 한 모델에서 결합하려는 시도의 결과입니다.
인코더-디코더 구조를 가지며, 「텍스트에 다양한 노이즈를 가한 뒤 원본을 복원하는」 사전학습 과제를 사용합니다.
사전학습 과제가 흥미롭습니다.
단어 마스킹·단어 삭제·문장 순서 섞기·문서 회전·단어 무작위 삽입 등 여러 종류의 「노이즈」를 입력에 가한 뒤, 디코더가 원래 깨끗한 문서를 복원하도록 훈련됩니다.
다양한 노이즈를 학습하므로 모델이 매우 강건해집니다.
비유하자면 BART는 「엉망으로 흩어진 퍼즐 조각을 다시 맞추는 학생」과 같습니다.
누군가 일부러 어지럽혀 놓은 문서를 보고 원형을 복원하는 능력을 길러, 결과적으로 「언어의 구조와 의미」를 깊이 이해하게 됩니다.
BART의 강점은 텍스트 요약·기계 번역 같은 「텍스트 → 텍스트」 작업에서 두드러집니다.
입력을 깊이 이해(인코더)한 뒤 새 출력을 생성(디코더)하는 일에 자연스럽게 맞기 때문입니다.
CNN 뉴스 요약 벤치마크에서 한동안 최고 점수를 유지했습니다.
현재의 LLM 시대에는 디코더만 구조(GPT 계열)가 주류가 되어 BART 같은 인코더-디코더 모델은 새로 만들어지는 일이 줄었습니다.
그러나 요약·번역 같은 「짧고 명확한 변환」 작업에서는 여전히 BART나 그 변형이 더 효율적인 선택일 수 있습니다.
한 줄 요약
BART는 텍스트에 다양한 노이즈를 가한 뒤 원본을 복원하는 사전학습 과제를 쓰는 인코더-디코더 모델로, 요약·번역 같은 「텍스트→텍스트」 변환에 특히 강합니다.
더 알아볼 것
- mBART — 다국어 BART
- BART의 다섯 가지 노이즈 함수
- Pegasus — 요약 특화 BART의 친척