DALL-E는 OpenAI가 만든 텍스트-이미지 생성 모델 시리즈입니다.
이름은 화가 살바도르 「달리(Dali)」와 픽사 영화 「월·E(WALL-E)」의 결합으로, 「예술적이면서도 친근한 AI」라는 의도를 담고 있습니다.
DALL-E 1(2021년 1월)은 GPT 스타일의 Transformer로 「텍스트 토큰 다음에 이미지 토큰을 예측하는」 방식으로 작동했습니다.
256×256 픽셀의 비교적 거친 이미지를 만들었지만 「텍스트로 그림을 그릴 수 있다」는 가능성을 처음 대중에게 보여 줬습니다.
DALL-E 2(2022년 4월)에서는 Diffusion 패러다임으로 전환했습니다.
1024×1024의 매우 사실적인 이미지를 만들 수 있게 됐고, 텍스트의 미묘한 의미까지 잘 반영했습니다.
「우주복을 입은 고양이가 화성에서 일출을 보는 모습」 같은 복잡한 묘사도 자연스럽게 생성했습니다.
DALL-E 3(2023년 10월)은 ChatGPT 안에 통합되어 등장했습니다.
가장 큰 변화는 「프롬프트 이해 능력」의 비약적 향상입니다.
길고 복잡한 묘사를 정확히 반영하고, 이미지 안에 글자도 비교적 정확히 그려 낼 수 있게 됐습니다.
DALL-E 시리즈는 ChatGPT, Bing, Microsoft Copilot 등을 통해 수억 명이 사용하는 대중 도구가 됐습니다.
다만 최근에는 비용 효율과 통제력 면에서 Midjourney·Stable Diffusion·FLUX 등이 강한 경쟁력을 보이고 있어, 영역별로 사용처가 갈리는 추세입니다.
한 줄 요약
DALL-E는 OpenAI의 텍스트-이미지 생성 시리즈로, v1(Transformer 방식) → v2(Diffusion으로 전환) → v3(프롬프트 이해 향상)으로 진화하며 생성 AI의 대중화를 이끌었습니다.
더 알아볼 것
- DALL-E 1의 dVAE 토큰화
- unCLIP — DALL-E 2의 핵심 구조
- DALL-E vs Midjourney의 차이