Diffusion 모델은 2020년부터 본격적으로 떠오른 새로운 생성 모델 패러다임입니다.
「이미지에 노이즈를 점점 더해 완전한 잡음으로 만드는 과정의 역방향을 학습한다」는 독특한 발상에 기반합니다.
이 모델이 GAN을 일부 대체하며 현재 이미지 생성의 주류가 됐습니다.
학습 과정은 두 단계입니다.
「전방 과정(forward)」 — 진짜 이미지에 작은 가우시안 노이즈를 천 번 정도 점점 더해 결국 완전한 잡음으로 만듭니다.
「역방향 과정(reverse)」 — 신경망에게 「t단계의 노이즈 이미지를 보고 t-1 단계로 한 단계 노이즈를 빼는 법」을 학습시킵니다.
추론 단계에서는 완전한 무작위 노이즈에서 시작해 학습된 신경망이 천 번의 「노이즈 제거」를 반복합니다.
마지막에는 노이즈에서 사실적인 이미지가 「떠오르는」 듯한 신비로운 과정을 거쳐 결과가 만들어집니다.
비유하자면 Diffusion은 「조각가가 큰 대리석 덩어리에서 깎아 가며 점점 형상을 드러내는 일」과 같습니다.
시작은 형태 없는 잡음이고, 한 단계씩 「불필요한 잡음」을 깎아 내면서 점점 의미 있는 이미지가 모습을 드러냅니다.
Diffusion 모델의 가장 큰 매력은 학습이 안정적이라는 점입니다.
GAN의 두 신경망 경쟁 같은 불안정성이 없고, 단순한 회귀 과제(노이즈 예측)로 학습됩니다.
또 결과의 다양성과 품질이 모두 뛰어나, Stable Diffusion·DALL-E 3·Midjourney가 모두 이 패러다임을 따릅니다.
한 줄 요약
Diffusion 모델은 「이미지에 노이즈를 더하는 과정의 역방향을 학습」해 무작위 잡음에서 점진적 노이즈 제거로 이미지를 만들어 내는 모델로, 현재 이미지 생성의 주류 패러다임입니다.
더 알아볼 것
- DDPM — Diffusion 모델의 출발점
- Score-based Generative Models
- Latent Diffusion — Stable Diffusion의 핵심