GPT(Generative Pre-trained Transformer)는 OpenAI의 LLM 시리즈로, 현재 LLM 시대를 연 가장 영향력 있는 모델 가족입니다.
Transformer의 디코더 부분만으로 만들어졌고, 「다음 단어 예측」이라는 단순한 사전학습 과제로 자랐습니다.
GPT-1(2018)은 1억 1700만 파라미터의 비교적 작은 모델로, 「사전학습 + 미세조정」이라는 패러다임을 보여 줬습니다.
GPT-2(2019)는 15억 파라미터로 확장되며 「사람이 쓴 듯한 자연스러운 텍스트」를 만들어 내 큰 충격을 줬고, OpenAI는 한때 「악용 우려」로 가중치 공개를 늦추기도 했습니다.
GPT-3(2020)는 1,750억 파라미터로 스케일을 100배 더 키운 모델입니다.
가장 큰 발견은 「in-context learning」 — 모델에 몇 가지 예시만 보여 주면 미세조정 없이도 새 작업을 배울 수 있는 능력이었습니다.
이 발견이 「프롬프트 엔지니어링」이라는 새 분야를 만들었습니다.
GPT-3.5는 2022년 ChatGPT의 형태로 대중에게 공개되었고, 5일 만에 100만 명, 두 달 만에 1억 명을 모으며 인터넷 역사상 가장 빠르게 자란 서비스가 됐습니다.
RLHF(사람 피드백 강화학습)로 「대화 형식에 친화적」으로 다듬은 결과였습니다.
GPT-4(2023)는 추정 1조 7천억 파라미터의 「Mixture-of-Experts」 모델로, 멀티모달(이미지 입력)과 강한 추론 능력을 갖췄습니다.
이후 GPT-4 Turbo(긴 컨텍스트), GPT-4o(빠른 멀티모달), 그리고 추론 강화형 o1·o3 시리즈로 이어지며 진화를 거듭하고 있습니다.
한 줄 요약
GPT 시리즈는 다음 단어 예측이라는 단순한 과제로 1억 → 1조 7천억 파라미터까지 100배씩 자랐고, GPT-3의 in-context learning과 GPT-3.5의 ChatGPT 출시가 LLM 시대를 열었습니다.
더 알아볼 것
- 스케일링 법칙(Scaling Law) — GPT 발전의 토대
- Mixture-of-Experts — GPT-4의 효율 비결
- o1·o3 — 추론 강화형 GPT의 새 흐름