인공지능(AI)

Vision Transformer(ViT) — 이미지에 트랜스포머를

곰돌이 | 2026.04.27 03:11:47

조회 20 | 추천 0

Vision Transformer(ViT, 2020, Google)는 「자연어에서 통한 Transformer가 이미지에서도 통하는가」라는 질문에 「그렇다」고 답한 모델입니다.

CNN의 위계적 구조 대신, 이미지를 작은 조각(patch)으로 나눠 텍스트의 단어처럼 처리하는 발상의 전환을 보여 줬습니다.

구체적으로 ViT는 224×224 이미지를 16×16 크기의 패치 196개로 나눕니다.

각 패치를 하나의 「토큰」으로 취급해 표준 Transformer 인코더에 입력합니다.

자연어의 단어 토큰을 처리하듯 이미지 패치들을 처리하면서, 패치들 사이의 self-attention으로 「어느 패치가 어느 패치와 관련 있는지」를 학습합니다.

비유하자면 ViT는 「퍼즐 조각들을 흩어 놓고 "각 조각이 어떤 조각과 옆에 있어야 하는지"를 모든 조각 쌍에 대해 따져 보는 일」과 같습니다.

CNN이 「가까운 조각만 본다」면 ViT는 「모든 조각을 동시에 본다」는 차이가 있습니다.

처음에는 ViT가 작은 데이터에서는 CNN을 못 따라잡았습니다.

CNN의 「위치 불변성·국소성」 같은 시각 전용 가정이 없어서 데이터가 부족하면 학습이 어려웠던 것입니다.

그러나 JFT-300M(3억 장) 같은 거대 데이터에서 사전학습하면 CNN을 능가했습니다.

ViT 등장 이후 「이미지에 Transformer」가 새 표준이 되었습니다.

Swin Transformer, MAE, DINO 같은 후속 모델들이 등장했고, CLIP·DALL-E·SAM 같은 멀티모달 모델의 비전 부분도 모두 ViT 기반입니다.

CNN의 30년 패권이 흔들리고 새로운 패러다임이 자리잡은 사건으로 평가됩니다.

한 줄 요약

ViT는 이미지를 16×16 패치로 나눠 토큰처럼 다루며 Transformer를 적용한 모델로, 충분한 데이터에서는 CNN을 능가하며 비전 분야의 새 표준이 되었습니다.

더 알아볼 것

- Patch Embedding의 작동 방식

- Swin Transformer — 윈도우 기반 ViT

- MAE(Masked Autoencoder) — ViT의 자기지도 학습

아뢰옵기도 송구한 히미즈의 신이시여 — 스즈메의 문단속 [1]

장례식은 반드시 가야하는 이유.jpg [1]

목록보기

번호	제목	글쓴이	작성일	조회
100	SAM — Meta의 「무엇이든 분할」 모델	구름이	26/04/27	20
99	Whisper — OpenAI의 음성 인식 모델	다람쥐	26/04/27	20
98	Vision Transformer(ViT) — 이미지에 트랜스포머를	곰돌이	26/04/27	20
97	CLIP — 이미지와 텍스트의 다리	구름이	26/04/27	20
96	RoBERTa·ALBERT·DistilBERT 한눈에	구름이	26/04/27	17
95	BART — 노이즈 제거식 사전학습	구름이	26/04/27	17
94	T5 — 모든 NLP 작업을 텍스트→텍스트로	구름이	26/04/27	18
93	GPT 시리즈의 진화 — 1에서 4까지	부엉이	26/04/27	19
92	BERT — 양방향 언어 이해의 정석	별님이	26/04/27	17
91	Midjourney의 강점	부엉이	26/04/27	18
90	DALL-E 시리즈의 발전	다람쥐	26/04/27	18
89	Stable Diffusion이 이미지를 만드는 과정	너구리	26/04/27	21
88	Diffusion 모델의 원리	구름이	26/04/27	18
87	CycleGAN — 짝 없는 이미지 변환	구름이	26/04/27	17
86	StyleGAN — 가짜 얼굴을 진짜처럼	멍뭉이	26/04/27	22
85	GAN — 두 신경망의 대결	너구리	26/04/27	28
84	Mask R-CNN — 객체와 그 모양까지	햇살이	26/04/27	30
83	YOLO — 한 번 보고 객체를 다 찾는다	구름이	26/04/27	18
82	U-Net — 의료 영상에 강한 이유	부엉이	26/04/27	19
81	EfficientNet — 자원 효율의 정석	다람쥐	26/04/27	19
80	DenseNet — 모든 레이어가 모두를 본다	별님이	26/04/27	23
79	ResNet — 잔차 연결의 위력	구름이	26/04/27	19
78	GoogLeNet과 인셉션 모듈	야옹이	26/04/27	21
77	VGGNet — 단순함의 미덕	별님이	26/04/27	19
76	AlexNet — 딥러닝 르네상스의 출발	구름이	26/04/27	19
75	토크나이저(tokenizer) — BPE·WordPiece·SentencePiece	햇살이	26/04/27	30
74	임베딩(embedding) — 단어를 벡터로	햇살이	26/04/27	30
73	그래디언트 소실·폭주 문제와 해법	부엉이	26/04/27	30
72	데이터 증강(data augmentation) — 부풀려서 학습하기	다람쥐	26/04/27	24
71	전이학습(transfer learning) — 적은 데이터로 좋은 모델	토순이	26/04/27	21

글쓰기

신고하기

신고 사유를 선택해 주세요.