Transformer의 원래 구조는 「인코더(encoder)」와 「디코더(decoder)」 두 부분으로 나뉘어 있습니다.
인코더는 입력 시퀀스의 의미를 이해하고, 디코더는 그 이해를 바탕으로 출력 시퀀스를 만들어 냅니다.
이 두 부분의 조합 방식에 따라 현대 LLM은 세 가지 가족으로 나뉩니다.
첫째, 「인코더만(encoder-only)」 구조 — 대표적인 모델이 BERT입니다.
입력을 깊이 이해하는 데 특화돼 분류·검색·질의응답 같은 「이해」 작업에 강합니다.
텍스트를 새로 생성하지는 않습니다.
둘째, 「디코더만(decoder-only)」 구조 — GPT 시리즈, Llama, Claude가 모두 여기에 속합니다.
한 단어씩 다음 단어를 예측하면서 텍스트를 생성하는 데 특화됐습니다.
인코더 없이도 in-context learning(맥락 안에서 예시로 학습)이 가능해 현재 LLM의 주류가 됐습니다.
셋째, 「인코더-디코더(encoder-decoder)」 구조 — 원래 Transformer 논문, T5, BART가 대표적입니다.
입력을 인코더로 이해한 뒤 디코더로 새 출력을 생성하는 「번역」 형태의 작업에 강합니다.
기계 번역, 요약, 질의응답에 적합합니다.
오늘날의 대형 LLM은 대부분 디코더만 구조를 채택했습니다.
단순함, 학습 효율, 그리고 in-context learning의 자연스러움 때문입니다.
다만 이미지·텍스트를 함께 다루는 멀티모달 모델이나 특정 작업에 특화된 모델에서는 여전히 인코더-디코더가 적극 쓰입니다.
한 줄 요약
Transformer의 인코더는 이해, 디코더는 생성에 특화됩니다.
현대 LLM은 BERT(인코더만), GPT·Claude(디코더만), T5(인코더-디코더) 세 가족으로 나뉘며, 디코더만 구조가 주류입니다.
더 알아볼 것
- BERT vs GPT — 두 패러다임의 비교
- T5 — 모든 작업을 텍스트→텍스트로
- 왜 디코더만이 주류가 되었는가