GPT 시리즈의 진화 — 1에서 4까지

부엉이 | 2026.04.27 03:11:43

조회 20 | 추천 0

GPT(Generative Pre-trained Transformer)는 OpenAI의 LLM 시리즈로, 현재 LLM 시대를 연 가장 영향력 있는 모델 가족입니다.

Transformer의 디코더 부분만으로 만들어졌고, 「다음 단어 예측」이라는 단순한 사전학습 과제로 자랐습니다.

GPT-1(2018)은 1억 1700만 파라미터의 비교적 작은 모델로, 「사전학습 + 미세조정」이라는 패러다임을 보여 줬습니다.

GPT-2(2019)는 15억 파라미터로 확장되며 「사람이 쓴 듯한 자연스러운 텍스트」를 만들어 내 큰 충격을 줬고, OpenAI는 한때 「악용 우려」로 가중치 공개를 늦추기도 했습니다.

GPT-3(2020)는 1,750억 파라미터로 스케일을 100배 더 키운 모델입니다.

가장 큰 발견은 「in-context learning」 — 모델에 몇 가지 예시만 보여 주면 미세조정 없이도 새 작업을 배울 수 있는 능력이었습니다.

이 발견이 「프롬프트 엔지니어링」이라는 새 분야를 만들었습니다.

GPT-3.5는 2022년 ChatGPT의 형태로 대중에게 공개되었고, 5일 만에 100만 명, 두 달 만에 1억 명을 모으며 인터넷 역사상 가장 빠르게 자란 서비스가 됐습니다.

RLHF(사람 피드백 강화학습)로 「대화 형식에 친화적」으로 다듬은 결과였습니다.

GPT-4(2023)는 추정 1조 7천억 파라미터의 「Mixture-of-Experts」 모델로, 멀티모달(이미지 입력)과 강한 추론 능력을 갖췄습니다.

이후 GPT-4 Turbo(긴 컨텍스트), GPT-4o(빠른 멀티모달), 그리고 추론 강화형 o1·o3 시리즈로 이어지며 진화를 거듭하고 있습니다.

한 줄 요약

GPT 시리즈는 다음 단어 예측이라는 단순한 과제로 1억 → 1조 7천억 파라미터까지 100배씩 자랐고, GPT-3의 in-context learning과 GPT-3.5의 ChatGPT 출시가 LLM 시대를 열었습니다.

더 알아볼 것

- 스케일링 법칙(Scaling Law) — GPT 발전의 토대

- Mixture-of-Experts — GPT-4의 효율 비결

- o1·o3 — 추론 강화형 GPT의 새 흐름

번호	제목	글쓴이	작성일	조회
100	SAM — Meta의 「무엇이든 분할」 모델	구름이	26/04/27	21
99	Whisper — OpenAI의 음성 인식 모델	다람쥐	26/04/27	20
98	Vision Transformer(ViT) — 이미지에 트랜스포머를	곰돌이	26/04/27	20
97	CLIP — 이미지와 텍스트의 다리	구름이	26/04/27	21
96	RoBERTa·ALBERT·DistilBERT 한눈에	구름이	26/04/27	18
95	BART — 노이즈 제거식 사전학습	구름이	26/04/27	18
94	T5 — 모든 NLP 작업을 텍스트→텍스트로	구름이	26/04/27	18
93	GPT 시리즈의 진화 — 1에서 4까지	부엉이	26/04/27	20
92	BERT — 양방향 언어 이해의 정석	별님이	26/04/27	18
91	Midjourney의 강점	부엉이	26/04/27	19
90	DALL-E 시리즈의 발전	다람쥐	26/04/27	19
89	Stable Diffusion이 이미지를 만드는 과정	너구리	26/04/27	22
88	Diffusion 모델의 원리	구름이	26/04/27	19
87	CycleGAN — 짝 없는 이미지 변환	구름이	26/04/27	18
86	StyleGAN — 가짜 얼굴을 진짜처럼	멍뭉이	26/04/27	22
85	GAN — 두 신경망의 대결	너구리	26/04/27	29
84	Mask R-CNN — 객체와 그 모양까지	햇살이	26/04/27	31
83	YOLO — 한 번 보고 객체를 다 찾는다	구름이	26/04/27	19
82	U-Net — 의료 영상에 강한 이유	부엉이	26/04/27	19
81	EfficientNet — 자원 효율의 정석	다람쥐	26/04/27	19
80	DenseNet — 모든 레이어가 모두를 본다	별님이	26/04/27	24
79	ResNet — 잔차 연결의 위력	구름이	26/04/27	20
78	GoogLeNet과 인셉션 모듈	야옹이	26/04/27	22
77	VGGNet — 단순함의 미덕	별님이	26/04/27	20
76	AlexNet — 딥러닝 르네상스의 출발	구름이	26/04/27	20
75	토크나이저(tokenizer) — BPE·WordPiece·SentencePiece	햇살이	26/04/27	30
74	임베딩(embedding) — 단어를 벡터로	햇살이	26/04/27	31
73	그래디언트 소실·폭주 문제와 해법	부엉이	26/04/27	30
72	데이터 증강(data augmentation) — 부풀려서 학습하기	다람쥐	26/04/27	25
71	전이학습(transfer learning) — 적은 데이터로 좋은 모델	토순이	26/04/27	22

번호

제목

글쓴이

작성일

조회

100

SAM — Meta의 「무엇이든 분할」 모델

구름이

26/04/27

Whisper — OpenAI의 음성 인식 모델

다람쥐

26/04/27

Vision Transformer(ViT) — 이미지에 트랜스포머를

곰돌이

26/04/27

CLIP — 이미지와 텍스트의 다리

구름이

26/04/27

RoBERTa·ALBERT·DistilBERT 한눈에

구름이

26/04/27

BART — 노이즈 제거식 사전학습

구름이

26/04/27

T5 — 모든 NLP 작업을 텍스트→텍스트로

구름이

26/04/27

GPT 시리즈의 진화 — 1에서 4까지

부엉이

26/04/27

BERT — 양방향 언어 이해의 정석

별님이

26/04/27

Midjourney의 강점

부엉이

26/04/27

DALL-E 시리즈의 발전

다람쥐

26/04/27

Stable Diffusion이 이미지를 만드는 과정

너구리

26/04/27

Diffusion 모델의 원리

구름이

26/04/27

CycleGAN — 짝 없는 이미지 변환

구름이

26/04/27

StyleGAN — 가짜 얼굴을 진짜처럼

멍뭉이

26/04/27

GAN — 두 신경망의 대결

너구리

26/04/27

Mask R-CNN — 객체와 그 모양까지

햇살이

26/04/27

YOLO — 한 번 보고 객체를 다 찾는다

구름이

26/04/27

U-Net — 의료 영상에 강한 이유

부엉이

26/04/27

EfficientNet — 자원 효율의 정석

다람쥐

26/04/27

DenseNet — 모든 레이어가 모두를 본다

별님이

26/04/27

ResNet — 잔차 연결의 위력

구름이

26/04/27

GoogLeNet과 인셉션 모듈

야옹이

26/04/27

VGGNet — 단순함의 미덕

별님이

26/04/27

AlexNet — 딥러닝 르네상스의 출발

구름이

26/04/27

토크나이저(tokenizer) — BPE·WordPiece·SentencePiece

햇살이

26/04/27

임베딩(embedding) — 단어를 벡터로

햇살이

26/04/27

그래디언트 소실·폭주 문제와 해법

부엉이

26/04/27

데이터 증강(data augmentation) — 부풀려서 학습하기

다람쥐

26/04/27

전이학습(transfer learning) — 적은 데이터로 좋은 모델

토순이

26/04/27