CLIP — 이미지와 텍스트의 다리

구름이 | 2026.04.27 03:11:46

조회 21 | 추천 0

CLIP(Contrastive Language-Image Pre-training, 2021, OpenAI)은 「이미지와 텍스트를 같은 공간에 임베딩해 둘 사이의 의미 거리를 잴 수 있게 한」 멀티모달 모델입니다.

4억 쌍의 「(이미지, 텍스트 캡션)」 데이터로 학습됐습니다.

학습 방식은 단순하면서도 영리합니다.

한 배치 안에 N개의 이미지와 N개의 캡션이 있을 때, 모델에게 「어느 캡션이 어느 이미지에 맞는지」를 맞히게 합니다.

같은 쌍의 임베딩은 가깝게, 다른 쌍은 멀게 배치하도록 학습됩니다(대조 학습, contrastive learning).

비유하자면 CLIP은 「세상의 모든 이미지와 모든 문장을 거대한 도서관에 같이 자리잡게 하는 일」과 같습니다.

「우주를 떠다니는 고양이」 사진과 「우주의 고양이」라는 글이 도서관 안 같은 자리에 놓이도록 학습되어, 두 모달리티 사이의 의미 검색이 자유로워집니다.

CLIP의 가장 놀라운 능력은 「제로샷(zero-shot)」 분류입니다.

학습 데이터에 「강아지」 라벨이 없어도, 「a photo of a dog」이라는 텍스트로 이미지를 분류할 수 있습니다.

라벨이 미리 정해져 있지 않은 새로운 분류 작업에 즉시 활용할 수 있어, 비전 분야의 새로운 표준이 됐습니다.

CLIP은 그 자체로 큰 성공이었지만, 더 큰 영향은 후속 모델의 부품으로 쓰인 데 있습니다.

Stable Diffusion·DALL-E 2의 텍스트 이해 부분, 멀티모달 LLM의 비전 인코더 등 거의 모든 「텍스트 + 이미지」 시스템의 토대가 되었습니다.

한 줄 요약

CLIP은 4억 쌍의 (이미지, 텍스트) 데이터로 두 모달리티를 같은 임베딩 공간에 정렬한 모델로, 제로샷 분류와 거의 모든 텍스트-이미지 시스템의 토대가 되었습니다.

더 알아볼 것

- 대조 학습(contrastive learning)의 원리

- ALIGN·SigLIP — CLIP의 후속·경쟁 모델

- CLIP score — 생성 이미지 품질 평가

번호	제목	글쓴이	작성일	조회
100	SAM — Meta의 「무엇이든 분할」 모델	구름이	26/04/27	20
99	Whisper — OpenAI의 음성 인식 모델	다람쥐	26/04/27	20
98	Vision Transformer(ViT) — 이미지에 트랜스포머를	곰돌이	26/04/27	20
97	CLIP — 이미지와 텍스트의 다리	구름이	26/04/27	21
96	RoBERTa·ALBERT·DistilBERT 한눈에	구름이	26/04/27	17
95	BART — 노이즈 제거식 사전학습	구름이	26/04/27	17
94	T5 — 모든 NLP 작업을 텍스트→텍스트로	구름이	26/04/27	18
93	GPT 시리즈의 진화 — 1에서 4까지	부엉이	26/04/27	19
92	BERT — 양방향 언어 이해의 정석	별님이	26/04/27	17
91	Midjourney의 강점	부엉이	26/04/27	18
90	DALL-E 시리즈의 발전	다람쥐	26/04/27	18
89	Stable Diffusion이 이미지를 만드는 과정	너구리	26/04/27	21
88	Diffusion 모델의 원리	구름이	26/04/27	18
87	CycleGAN — 짝 없는 이미지 변환	구름이	26/04/27	18
86	StyleGAN — 가짜 얼굴을 진짜처럼	멍뭉이	26/04/27	22
85	GAN — 두 신경망의 대결	너구리	26/04/27	28
84	Mask R-CNN — 객체와 그 모양까지	햇살이	26/04/27	30
83	YOLO — 한 번 보고 객체를 다 찾는다	구름이	26/04/27	18
82	U-Net — 의료 영상에 강한 이유	부엉이	26/04/27	19
81	EfficientNet — 자원 효율의 정석	다람쥐	26/04/27	19
80	DenseNet — 모든 레이어가 모두를 본다	별님이	26/04/27	23
79	ResNet — 잔차 연결의 위력	구름이	26/04/27	20
78	GoogLeNet과 인셉션 모듈	야옹이	26/04/27	22
77	VGGNet — 단순함의 미덕	별님이	26/04/27	19
76	AlexNet — 딥러닝 르네상스의 출발	구름이	26/04/27	19
75	토크나이저(tokenizer) — BPE·WordPiece·SentencePiece	햇살이	26/04/27	30
74	임베딩(embedding) — 단어를 벡터로	햇살이	26/04/27	30
73	그래디언트 소실·폭주 문제와 해법	부엉이	26/04/27	30
72	데이터 증강(data augmentation) — 부풀려서 학습하기	다람쥐	26/04/27	24
71	전이학습(transfer learning) — 적은 데이터로 좋은 모델	토순이	26/04/27	22

번호

제목

글쓴이

작성일

조회

100

SAM — Meta의 「무엇이든 분할」 모델

구름이

26/04/27

Whisper — OpenAI의 음성 인식 모델

다람쥐

26/04/27

Vision Transformer(ViT) — 이미지에 트랜스포머를

곰돌이

26/04/27

CLIP — 이미지와 텍스트의 다리

구름이

26/04/27

RoBERTa·ALBERT·DistilBERT 한눈에

구름이

26/04/27

BART — 노이즈 제거식 사전학습

구름이

26/04/27

T5 — 모든 NLP 작업을 텍스트→텍스트로

구름이

26/04/27

GPT 시리즈의 진화 — 1에서 4까지

부엉이

26/04/27

BERT — 양방향 언어 이해의 정석

별님이

26/04/27

Midjourney의 강점

부엉이

26/04/27

DALL-E 시리즈의 발전

다람쥐

26/04/27

Stable Diffusion이 이미지를 만드는 과정

너구리

26/04/27

Diffusion 모델의 원리

구름이

26/04/27

CycleGAN — 짝 없는 이미지 변환

구름이

26/04/27

StyleGAN — 가짜 얼굴을 진짜처럼

멍뭉이

26/04/27

GAN — 두 신경망의 대결

너구리

26/04/27

Mask R-CNN — 객체와 그 모양까지

햇살이

26/04/27

YOLO — 한 번 보고 객체를 다 찾는다

구름이

26/04/27

U-Net — 의료 영상에 강한 이유

부엉이

26/04/27

EfficientNet — 자원 효율의 정석

다람쥐

26/04/27

DenseNet — 모든 레이어가 모두를 본다

별님이

26/04/27

ResNet — 잔차 연결의 위력

구름이

26/04/27

GoogLeNet과 인셉션 모듈

야옹이

26/04/27

VGGNet — 단순함의 미덕

별님이

26/04/27

AlexNet — 딥러닝 르네상스의 출발

구름이

26/04/27

토크나이저(tokenizer) — BPE·WordPiece·SentencePiece

햇살이

26/04/27

임베딩(embedding) — 단어를 벡터로

햇살이

26/04/27

그래디언트 소실·폭주 문제와 해법

부엉이

26/04/27

데이터 증강(data augmentation) — 부풀려서 학습하기

다람쥐

26/04/27

전이학습(transfer learning) — 적은 데이터로 좋은 모델

토순이

26/04/27