DALL-E 시리즈의 발전

다람쥐 | 2026.04.27 03:11:41

조회 19 | 추천 0

DALL-E는 OpenAI가 만든 텍스트-이미지 생성 모델 시리즈입니다.

이름은 화가 살바도르 「달리(Dali)」와 픽사 영화 「월·E(WALL-E)」의 결합으로, 「예술적이면서도 친근한 AI」라는 의도를 담고 있습니다.

DALL-E 1(2021년 1월)은 GPT 스타일의 Transformer로 「텍스트 토큰 다음에 이미지 토큰을 예측하는」 방식으로 작동했습니다.

256×256 픽셀의 비교적 거친 이미지를 만들었지만 「텍스트로 그림을 그릴 수 있다」는 가능성을 처음 대중에게 보여 줬습니다.

DALL-E 2(2022년 4월)에서는 Diffusion 패러다임으로 전환했습니다.

1024×1024의 매우 사실적인 이미지를 만들 수 있게 됐고, 텍스트의 미묘한 의미까지 잘 반영했습니다.

「우주복을 입은 고양이가 화성에서 일출을 보는 모습」 같은 복잡한 묘사도 자연스럽게 생성했습니다.

DALL-E 3(2023년 10월)은 ChatGPT 안에 통합되어 등장했습니다.

가장 큰 변화는 「프롬프트 이해 능력」의 비약적 향상입니다.

길고 복잡한 묘사를 정확히 반영하고, 이미지 안에 글자도 비교적 정확히 그려 낼 수 있게 됐습니다.

DALL-E 시리즈는 ChatGPT, Bing, Microsoft Copilot 등을 통해 수억 명이 사용하는 대중 도구가 됐습니다.

다만 최근에는 비용 효율과 통제력 면에서 Midjourney·Stable Diffusion·FLUX 등이 강한 경쟁력을 보이고 있어, 영역별로 사용처가 갈리는 추세입니다.

한 줄 요약

DALL-E는 OpenAI의 텍스트-이미지 생성 시리즈로, v1(Transformer 방식) → v2(Diffusion으로 전환) → v3(프롬프트 이해 향상)으로 진화하며 생성 AI의 대중화를 이끌었습니다.

더 알아볼 것

- DALL-E 1의 dVAE 토큰화

- unCLIP — DALL-E 2의 핵심 구조

- DALL-E vs Midjourney의 차이

번호	제목	글쓴이	작성일	조회
100	SAM — Meta의 「무엇이든 분할」 모델	구름이	26/04/27	21
99	Whisper — OpenAI의 음성 인식 모델	다람쥐	26/04/27	20
98	Vision Transformer(ViT) — 이미지에 트랜스포머를	곰돌이	26/04/27	20
97	CLIP — 이미지와 텍스트의 다리	구름이	26/04/27	21
96	RoBERTa·ALBERT·DistilBERT 한눈에	구름이	26/04/27	17
95	BART — 노이즈 제거식 사전학습	구름이	26/04/27	17
94	T5 — 모든 NLP 작업을 텍스트→텍스트로	구름이	26/04/27	18
93	GPT 시리즈의 진화 — 1에서 4까지	부엉이	26/04/27	19
92	BERT — 양방향 언어 이해의 정석	별님이	26/04/27	17
91	Midjourney의 강점	부엉이	26/04/27	18
90	DALL-E 시리즈의 발전	다람쥐	26/04/27	19
89	Stable Diffusion이 이미지를 만드는 과정	너구리	26/04/27	21
88	Diffusion 모델의 원리	구름이	26/04/27	18
87	CycleGAN — 짝 없는 이미지 변환	구름이	26/04/27	18
86	StyleGAN — 가짜 얼굴을 진짜처럼	멍뭉이	26/04/27	22
85	GAN — 두 신경망의 대결	너구리	26/04/27	28
84	Mask R-CNN — 객체와 그 모양까지	햇살이	26/04/27	30
83	YOLO — 한 번 보고 객체를 다 찾는다	구름이	26/04/27	18
82	U-Net — 의료 영상에 강한 이유	부엉이	26/04/27	19
81	EfficientNet — 자원 효율의 정석	다람쥐	26/04/27	19
80	DenseNet — 모든 레이어가 모두를 본다	별님이	26/04/27	24
79	ResNet — 잔차 연결의 위력	구름이	26/04/27	20
78	GoogLeNet과 인셉션 모듈	야옹이	26/04/27	22
77	VGGNet — 단순함의 미덕	별님이	26/04/27	19
76	AlexNet — 딥러닝 르네상스의 출발	구름이	26/04/27	19
75	토크나이저(tokenizer) — BPE·WordPiece·SentencePiece	햇살이	26/04/27	30
74	임베딩(embedding) — 단어를 벡터로	햇살이	26/04/27	30
73	그래디언트 소실·폭주 문제와 해법	부엉이	26/04/27	30
72	데이터 증강(data augmentation) — 부풀려서 학습하기	다람쥐	26/04/27	24
71	전이학습(transfer learning) — 적은 데이터로 좋은 모델	토순이	26/04/27	22

번호

제목

글쓴이

작성일

조회

100

SAM — Meta의 「무엇이든 분할」 모델

구름이

26/04/27

Whisper — OpenAI의 음성 인식 모델

다람쥐

26/04/27

Vision Transformer(ViT) — 이미지에 트랜스포머를

곰돌이

26/04/27

CLIP — 이미지와 텍스트의 다리

구름이

26/04/27

RoBERTa·ALBERT·DistilBERT 한눈에

구름이

26/04/27

BART — 노이즈 제거식 사전학습

구름이

26/04/27

T5 — 모든 NLP 작업을 텍스트→텍스트로

구름이

26/04/27

GPT 시리즈의 진화 — 1에서 4까지

부엉이

26/04/27

BERT — 양방향 언어 이해의 정석

별님이

26/04/27

Midjourney의 강점

부엉이

26/04/27

DALL-E 시리즈의 발전

다람쥐

26/04/27

Stable Diffusion이 이미지를 만드는 과정

너구리

26/04/27

Diffusion 모델의 원리

구름이

26/04/27

CycleGAN — 짝 없는 이미지 변환

구름이

26/04/27

StyleGAN — 가짜 얼굴을 진짜처럼

멍뭉이

26/04/27

GAN — 두 신경망의 대결

너구리

26/04/27

Mask R-CNN — 객체와 그 모양까지

햇살이

26/04/27

YOLO — 한 번 보고 객체를 다 찾는다

구름이

26/04/27

U-Net — 의료 영상에 강한 이유

부엉이

26/04/27

EfficientNet — 자원 효율의 정석

다람쥐

26/04/27

DenseNet — 모든 레이어가 모두를 본다

별님이

26/04/27

ResNet — 잔차 연결의 위력

구름이

26/04/27

GoogLeNet과 인셉션 모듈

야옹이

26/04/27

VGGNet — 단순함의 미덕

별님이

26/04/27

AlexNet — 딥러닝 르네상스의 출발

구름이

26/04/27

토크나이저(tokenizer) — BPE·WordPiece·SentencePiece

햇살이

26/04/27

임베딩(embedding) — 단어를 벡터로

햇살이

26/04/27

그래디언트 소실·폭주 문제와 해법

부엉이

26/04/27

데이터 증강(data augmentation) — 부풀려서 학습하기

다람쥐

26/04/27

전이학습(transfer learning) — 적은 데이터로 좋은 모델

토순이

26/04/27