CLIP(Contrastive Language-Image Pre-training, 2021, OpenAI)은 「이미지와 텍스트를 같은 공간에 임베딩해 둘 사이의 의미 거리를 잴 수 있게 한」 멀티모달 모델입니다.
4억 쌍의 「(이미지, 텍스트 캡션)」 데이터로 학습됐습니다.
학습 방식은 단순하면서도 영리합니다.
한 배치 안에 N개의 이미지와 N개의 캡션이 있을 때, 모델에게 「어느 캡션이 어느 이미지에 맞는지」를 맞히게 합니다.
같은 쌍의 임베딩은 가깝게, 다른 쌍은 멀게 배치하도록 학습됩니다(대조 학습, contrastive learning).
비유하자면 CLIP은 「세상의 모든 이미지와 모든 문장을 거대한 도서관에 같이 자리잡게 하는 일」과 같습니다.
「우주를 떠다니는 고양이」 사진과 「우주의 고양이」라는 글이 도서관 안 같은 자리에 놓이도록 학습되어, 두 모달리티 사이의 의미 검색이 자유로워집니다.
CLIP의 가장 놀라운 능력은 「제로샷(zero-shot)」 분류입니다.
학습 데이터에 「강아지」 라벨이 없어도, 「a photo of a dog」이라는 텍스트로 이미지를 분류할 수 있습니다.
라벨이 미리 정해져 있지 않은 새로운 분류 작업에 즉시 활용할 수 있어, 비전 분야의 새로운 표준이 됐습니다.
CLIP은 그 자체로 큰 성공이었지만, 더 큰 영향은 후속 모델의 부품으로 쓰인 데 있습니다.
Stable Diffusion·DALL-E 2의 텍스트 이해 부분, 멀티모달 LLM의 비전 인코더 등 거의 모든 「텍스트 + 이미지」 시스템의 토대가 되었습니다.
한 줄 요약
CLIP은 4억 쌍의 (이미지, 텍스트) 데이터로 두 모달리티를 같은 임베딩 공간에 정렬한 모델로, 제로샷 분류와 거의 모든 텍스트-이미지 시스템의 토대가 되었습니다.
더 알아볼 것
- 대조 학습(contrastive learning)의 원리
- ALIGN·SigLIP — CLIP의 후속·경쟁 모델
- CLIP score — 생성 이미지 품질 평가