데이터 전처리 — 결측치·이상치·표준화

토순이 | 2026.04.27 02:58:24

조회 20 | 추천 0

「쓰레기를 넣으면 쓰레기가 나온다(GIGO, Garbage In Garbage Out)」는 머신러닝의 오랜 격언입니다.

모델이 아무리 좋아도 입력 데이터의 질이 나쁘면 좋은 결과를 기대할 수 없습니다.

그래서 학습 전에 데이터를 정돈하는 「전처리(preprocessing)」 단계가 모든 프로젝트의 60~80%를 차지한다고 자주 말합니다.

결측치(missing value) 처리가 첫 번째입니다.

어떤 값이 비어 있을 때 그 행을 통째로 버릴지, 평균·중앙값으로 채울지, 다른 모델로 예측해 채울지를 정해야 합니다.

데이터의 성격에 따라 정답이 다르며, 함부로 0으로 채우면 모델을 속이게 됩니다.

이상치(outlier) 처리도 중요합니다.

측정 오류로 들어온 비정상적으로 큰 값이나 작은 값은 모델을 흔들 수 있습니다.

박스플롯·Z-score·IQR 같은 통계적 도구로 식별한 뒤 제거하거나, 클리핑(잘라 내기)하거나, 이상치에 강한 모델을 쓰는 것이 일반적입니다.

스케일링(scaling)은 변수마다 단위가 크게 다를 때 필요합니다.

「나이(0~100)」와 「연봉(0~10억)」을 함께 학습시키면 연봉이 모델을 압도해 버립니다.

표준화(Standardization, 평균 0·표준편차 1)나 정규화(Normalization, 0~1 사이)로 변수의 크기를 비슷하게 맞춰 줍니다.

범주형 변수(예: 「서울」, 「부산」, 「대구」)는 모델이 이해할 수 있도록 숫자로 바꿔야 합니다.

가장 단순한 방법이 원-핫 인코딩(one-hot encoding) — 각 범주를 별도 칼럼으로 펼쳐 0/1로 표현 — 이고, 범주가 많을 때는 임베딩이나 타깃 인코딩 같은 더 영리한 방법을 씁니다.

한 줄 요약

데이터 전처리는 결측치·이상치 처리, 스케일링, 범주형 인코딩 등을 포함하며, 머신러닝 프로젝트 시간의 60~80%를 차지하는 가장 중요한 단계입니다.

더 알아볼 것

- 결측치 처리 — 삭제 vs 대치 vs 예측

- Min-Max·Z-score·로버스트 스케일러

- 원-핫 vs 임베딩 — 범주형 변수 처리법

번호	제목	글쓴이	작성일	조회
70	사전학습(pre-training)과 미세조정(fine-tuning)	너구리	26/04/27	20
69	인코더-디코더 구조 정리	곰돌이	26/04/27	20
68	위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가	햇살이	26/04/27	23
67	Multi-head attention — 여러 시각으로 동시에 보기	다람쥐	26/04/27	20
66	Self-attention — 한 문장 안에서 단어가 서로 보는 법	곰돌이	26/04/27	22
65	Transformer가 RNN을 대체한 이유	별님이	26/04/27	32
64	어텐션(attention) 메커니즘 한 그림으로	너구리	26/04/27	51
63	시퀀스-투-시퀀스(seq2seq) 모델	구름이	26/04/27	22
62	GRU — LSTM을 단순화한 변형	햇살이	26/04/27	19
61	LSTM — RNN의 장기 기억 한계 극복	부엉이	26/04/27	21
60	순환 신경망(RNN)이란	다람쥐	26/04/27	19
59	잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유	구름이	26/04/27	22
58	VGG·GoogLeNet·ResNet 한눈에	곰돌이	26/04/27	30
57	ImageNet과 알렉스넷의 의미 다시 보기	너구리	26/04/27	22
56	CNN 핵심 — 합성곱·풀링·스트라이드	구름이	26/04/27	19
55	합성곱 신경망(CNN)이란	구름이	26/04/27	21
54	가중치 초기화 — Xavier·He	곰돌이	26/04/27	23
53	배치 정규화(batch normalization)	부엉이	26/04/27	20
52	드롭아웃(dropout) — 과적합 방지의 정석	곰돌이	26/04/27	21
51	배치(batch)와 에폭(epoch)의 의미	토순이	26/04/27	22
50	옵티마이저 — SGD·Adam·AdamW 비교	토순이	26/04/27	23
49	역전파(backpropagation) 알고리즘	야옹이	26/04/27	18
48	활성화 함수 — ReLU·Sigmoid·Tanh·GELU	햇살이	26/04/27	24
47	인공 신경망의 기본 구조	야옹이	26/04/27	24
46	퍼셉트론에서 딥러닝까지의 여정	햇살이	26/04/27	22
45	차원 축소(PCA·t-SNE·UMAP) 한눈에	별님이	26/04/27	21
44	데이터 전처리 — 결측치·이상치·표준화	토순이	26/04/27	20
43	ROC 곡선과 AUC	너구리	26/04/27	45
42	혼동 행렬(confusion matrix) 읽는 법	햇살이	26/04/27	19
41	정확도·정밀도·재현율·F1 — 분류 지표 한눈에	다람쥐	26/04/27	20

번호

제목

글쓴이

작성일

조회

사전학습(pre-training)과 미세조정(fine-tuning)

너구리

26/04/27

인코더-디코더 구조 정리

곰돌이

26/04/27

위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가

햇살이

26/04/27

Multi-head attention — 여러 시각으로 동시에 보기

다람쥐

26/04/27

Self-attention — 한 문장 안에서 단어가 서로 보는 법

곰돌이

26/04/27

Transformer가 RNN을 대체한 이유

별님이

26/04/27

어텐션(attention) 메커니즘 한 그림으로

너구리

26/04/27

시퀀스-투-시퀀스(seq2seq) 모델

구름이

26/04/27

GRU — LSTM을 단순화한 변형

햇살이

26/04/27

LSTM — RNN의 장기 기억 한계 극복

부엉이

26/04/27

순환 신경망(RNN)이란

다람쥐

26/04/27

잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유

구름이

26/04/27

VGG·GoogLeNet·ResNet 한눈에

곰돌이

26/04/27

ImageNet과 알렉스넷의 의미 다시 보기

너구리

26/04/27

CNN 핵심 — 합성곱·풀링·스트라이드

구름이

26/04/27

합성곱 신경망(CNN)이란

구름이

26/04/27

가중치 초기화 — Xavier·He

곰돌이

26/04/27

배치 정규화(batch normalization)

부엉이

26/04/27

드롭아웃(dropout) — 과적합 방지의 정석

곰돌이

26/04/27

배치(batch)와 에폭(epoch)의 의미

토순이

26/04/27

옵티마이저 — SGD·Adam·AdamW 비교

토순이

26/04/27

역전파(backpropagation) 알고리즘

야옹이

26/04/27

활성화 함수 — ReLU·Sigmoid·Tanh·GELU

햇살이

26/04/27

인공 신경망의 기본 구조

야옹이

26/04/27

퍼셉트론에서 딥러닝까지의 여정

햇살이

26/04/27

차원 축소(PCA·t-SNE·UMAP) 한눈에

별님이

26/04/27

데이터 전처리 — 결측치·이상치·표준화

토순이

26/04/27

ROC 곡선과 AUC

너구리

26/04/27

혼동 행렬(confusion matrix) 읽는 법

햇살이

26/04/27

정확도·정밀도·재현율·F1 — 분류 지표 한눈에

다람쥐

26/04/27