T5(Text-to-Text Transfer Transformer, 2019, Google)는 「모든 NLP 작업을 "텍스트를 입력 받아 텍스트를 출력하는" 통일된 형식으로 다루자」는 야심찬 시도의 결과입니다.
이 단순한 발상이 NLP 연구의 큰 흐름을 정리해 줬습니다.
T5 이전에는 작업마다 모델 구조가 달랐습니다.
분류는 마지막에 분류층을, 번역은 인코더-디코더를, 질의응답은 또 다른 구조를 썼습니다.
T5는 「영어 → 한국어 번역」도 「translate English to Korean: Hello」 → 「안녕하세요」, 「감정 분석」도 「sentiment: This movie is great」 → 「positive」 식으로 모두 텍스트 입력·출력으로 통일했습니다.
비유하자면 T5는 「세상의 모든 문제를 "질문 → 답변" 형식의 시험으로 통일한 학교」와 같습니다.
분류·번역·요약·질의응답 모두가 같은 구조의 시험이 되고, 학생(모델)은 한 가지 시험 보는 법만 익히면 됩니다.
T5의 사전학습 과제는 「임의의 텍스트 일부를 가린 뒤 그 부분을 채워 넣게 하는」 것이었습니다.
BERT의 단일 단어 마스킹과 다르게 「연속된 여러 단어」를 동시에 가린다는 점이 차별점입니다.
이를 통해 더 풍부한 문맥 이해가 가능해졌습니다.
T5는 11개의 점수가 있는 SuperGLUE 벤치마크에서 사람 수준 점수를 처음 달성한 모델 중 하나였습니다.
이후 mT5(다국어), Flan-T5(지시 튜닝)로 발전했고, T5의 「텍스트→텍스트」 패러다임은 GPT 같은 후속 모델들에도 큰 영향을 줬습니다.
한 줄 요약
T5는 모든 NLP 작업을 「텍스트 입력 → 텍스트 출력」으로 통일한 인코더-디코더 모델로, 작업별로 다른 구조 대신 한 가지 모델로 모든 일을 처리하는 패러다임을 정착시켰습니다.
더 알아볼 것
- mT5 — 다국어 T5
- Flan-T5 — 지시 튜닝 강화 버전
- Span Corruption — T5의 사전학습 과제