차원 축소(PCA·t-SNE·UMAP) 한눈에

별님이 | 2026.04.27 02:58:25

조회 22 | 추천 0

차원 축소(dimensionality reduction)는 「수백·수천 차원의 복잡한 데이터를 2~3차원의 시각화 가능한 공간으로 줄이는 기법」입니다.

사람이 4차원 이상을 머릿속으로 그리지 못하므로, 데이터의 구조를 한눈에 보려면 반드시 필요합니다.

가장 오래된 방법은 PCA(주성분 분석)입니다.

「데이터가 가장 많이 흩어진 방향(주성분)」을 찾아 그 방향들로 좌표축을 다시 잡는 방식입니다.

회전과 늘림만 사용하는 선형 변환이라 빠르고 안정적이지만, 데이터의 비선형 구조는 잘 못 잡습니다.

t-SNE(t-distributed Stochastic Neighbor Embedding)는 2008년에 등장한 비선형 기법입니다.

「고차원에서 가까운 점은 저차원에서도 가깝게, 먼 점은 멀게」 배치하려고 노력합니다.

군집을 시각적으로 명확히 보여 주는 데 강하지만, 학습이 느리고 매번 결과가 조금씩 다르며 거리의 절대값은 신뢰할 수 없다는 한계가 있습니다.

UMAP(Uniform Manifold Approximation and Projection)은 2018년에 등장한 더 새로운 비선형 기법입니다.

t-SNE보다 빠르고, 군집 사이의 거리도 더 의미 있게 보존합니다.

최근에는 단일 세포 RNA 분석, 자연어 임베딩 시각화 등에서 t-SNE를 빠르게 대체하고 있습니다.

비유하자면 PCA는 「3D 조각을 정면·측면·평면 사진으로 찍는 일」, t-SNE·UMAP은 「3D 조각을 종이 위에 가장 알아보기 쉽게 평면화하는 일」과 같습니다.

후자는 더 자유롭지만 거리가 왜곡될 수 있다는 점을 늘 의식해야 합니다.

한 줄 요약

PCA는 빠르고 안정적인 선형 차원 축소, t-SNE는 군집을 잘 보여 주는 비선형 기법, UMAP은 t-SNE보다 빠르고 거리 보존이 더 좋은 신세대 기법입니다.

더 알아볼 것

- 주성분 — 데이터가 가장 흩어진 방향

- perplexity·n_neighbors — t-SNE·UMAP의 핵심 하이퍼파라미터

- 오토인코더 — 신경망으로 하는 차원 축소

번호	제목	글쓴이	작성일	조회
70	사전학습(pre-training)과 미세조정(fine-tuning)	너구리	26/04/27	20
69	인코더-디코더 구조 정리	곰돌이	26/04/27	21
68	위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가	햇살이	26/04/27	23
67	Multi-head attention — 여러 시각으로 동시에 보기	다람쥐	26/04/27	20
66	Self-attention — 한 문장 안에서 단어가 서로 보는 법	곰돌이	26/04/27	22
65	Transformer가 RNN을 대체한 이유	별님이	26/04/27	32
64	어텐션(attention) 메커니즘 한 그림으로	너구리	26/04/27	51
63	시퀀스-투-시퀀스(seq2seq) 모델	구름이	26/04/27	22
62	GRU — LSTM을 단순화한 변형	햇살이	26/04/27	19
61	LSTM — RNN의 장기 기억 한계 극복	부엉이	26/04/27	21
60	순환 신경망(RNN)이란	다람쥐	26/04/27	19
59	잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유	구름이	26/04/27	22
58	VGG·GoogLeNet·ResNet 한눈에	곰돌이	26/04/27	30
57	ImageNet과 알렉스넷의 의미 다시 보기	너구리	26/04/27	22
56	CNN 핵심 — 합성곱·풀링·스트라이드	구름이	26/04/27	19
55	합성곱 신경망(CNN)이란	구름이	26/04/27	21
54	가중치 초기화 — Xavier·He	곰돌이	26/04/27	24
53	배치 정규화(batch normalization)	부엉이	26/04/27	20
52	드롭아웃(dropout) — 과적합 방지의 정석	곰돌이	26/04/27	21
51	배치(batch)와 에폭(epoch)의 의미	토순이	26/04/27	22
50	옵티마이저 — SGD·Adam·AdamW 비교	토순이	26/04/27	23
49	역전파(backpropagation) 알고리즘	야옹이	26/04/27	18
48	활성화 함수 — ReLU·Sigmoid·Tanh·GELU	햇살이	26/04/27	25
47	인공 신경망의 기본 구조	야옹이	26/04/27	24
46	퍼셉트론에서 딥러닝까지의 여정	햇살이	26/04/27	22
45	차원 축소(PCA·t-SNE·UMAP) 한눈에	별님이	26/04/27	22
44	데이터 전처리 — 결측치·이상치·표준화	토순이	26/04/27	20
43	ROC 곡선과 AUC	너구리	26/04/27	45
42	혼동 행렬(confusion matrix) 읽는 법	햇살이	26/04/27	19
41	정확도·정밀도·재현율·F1 — 분류 지표 한눈에	다람쥐	26/04/27	20

번호

제목

글쓴이

작성일

조회

사전학습(pre-training)과 미세조정(fine-tuning)

너구리

26/04/27

인코더-디코더 구조 정리

곰돌이

26/04/27

위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가

햇살이

26/04/27

Multi-head attention — 여러 시각으로 동시에 보기

다람쥐

26/04/27

Self-attention — 한 문장 안에서 단어가 서로 보는 법

곰돌이

26/04/27

Transformer가 RNN을 대체한 이유

별님이

26/04/27

어텐션(attention) 메커니즘 한 그림으로

너구리

26/04/27

시퀀스-투-시퀀스(seq2seq) 모델

구름이

26/04/27

GRU — LSTM을 단순화한 변형

햇살이

26/04/27

LSTM — RNN의 장기 기억 한계 극복

부엉이

26/04/27

순환 신경망(RNN)이란

다람쥐

26/04/27

잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유

구름이

26/04/27

VGG·GoogLeNet·ResNet 한눈에

곰돌이

26/04/27

ImageNet과 알렉스넷의 의미 다시 보기

너구리

26/04/27

CNN 핵심 — 합성곱·풀링·스트라이드

구름이

26/04/27

합성곱 신경망(CNN)이란

구름이

26/04/27

가중치 초기화 — Xavier·He

곰돌이

26/04/27

배치 정규화(batch normalization)

부엉이

26/04/27

드롭아웃(dropout) — 과적합 방지의 정석

곰돌이

26/04/27

배치(batch)와 에폭(epoch)의 의미

토순이

26/04/27

옵티마이저 — SGD·Adam·AdamW 비교

토순이

26/04/27

역전파(backpropagation) 알고리즘

야옹이

26/04/27

활성화 함수 — ReLU·Sigmoid·Tanh·GELU

햇살이

26/04/27

인공 신경망의 기본 구조

야옹이

26/04/27

퍼셉트론에서 딥러닝까지의 여정

햇살이

26/04/27

차원 축소(PCA·t-SNE·UMAP) 한눈에

별님이

26/04/27

데이터 전처리 — 결측치·이상치·표준화

토순이

26/04/27

ROC 곡선과 AUC

너구리

26/04/27

혼동 행렬(confusion matrix) 읽는 법

햇살이

26/04/27

정확도·정밀도·재현율·F1 — 분류 지표 한눈에

다람쥐

26/04/27