Stable Diffusion(2022, Stability AI)은 Diffusion 모델을 「누구나 쓸 수 있게」 만든 결정적 오픈소스 모델입니다.
코드와 가중치를 모두 공개해 누구나 자기 PC에서 실행할 수 있게 했고, 이로 인해 생성 AI의 대중화에 결정적 역할을 했습니다.
기본 작동은 일반 Diffusion 모델과 같지만, 두 가지 결정적 개선이 있습니다.
첫째, 「잠재 공간(latent space)에서의 Diffusion」.
픽셀이 아니라 압축된 잠재 표현 위에서 Diffusion을 수행해 메모리·연산을 크게 줄였습니다.
512×512 이미지를 다루지만 실제로는 64×64 잠재 공간에서 작업합니다.
둘째, 「텍스트 조건부 생성」.
CLIP이라는 텍스트-이미지 정렬 모델을 통해 「"우주를 떠다니는 고양이"」 같은 자연어 프롬프트를 이미지 생성의 조건으로 사용할 수 있게 했습니다.
사용자는 영어 한 줄로 원하는 이미지를 만들어 낼 수 있게 됐습니다.
비유하자면 Stable Diffusion의 생성 과정은 「조각가에게 "우주의 고양이"라고 지시하면, 조각가가 노이즈 덩어리에서 그 이미지를 50번 정도 깎아 내며 점차 모습을 드러내는 일」과 같습니다.
텍스트가 「방향키」가 되고, 노이즈 제거 신경망이 「조각도」가 됩니다.
Stable Diffusion은 공개 후 폭발적으로 자랐습니다.
ControlNet(자세·윤곽 통제), LoRA(특정 화풍 학습), AnimateDiff(동영상 생성) 같은 수많은 확장이 커뮤니티에서 만들어졌습니다.
SD 1.5, 2.0, XL, 그리고 SD3까지 버전이 이어지며 품질도 계속 향상되고 있습니다.
한 줄 요약
Stable Diffusion은 「잠재 공간 위의 Diffusion + CLIP 텍스트 조건」으로 누구나 자기 PC에서 텍스트로 이미지를 생성하게 만든 결정적 오픈소스 모델입니다.
더 알아볼 것
- VAE의 잠재 공간 압축
- CLIP을 통한 텍스트 조건부 생성
- ControlNet — 자세·윤곽 통제