결측치 처리 — dropna와 fillna

멍뭉이 | 2026.04.27 13:01:01

조회 14 | 추천 0

현실 데이터에는 「누락된 값(missing value)」이 흔합니다.

Pandas에서는 NaN(Not a Number)으로 표현되며, 처리 방법에 따라 분석 결과가 크게 달라집니다.

결측치 검사.

df.isna() — 각 셀이 NaN인지 True/False.

df.isna().sum() — 열별 NaN 개수.

df.notna() — 그 반대.

df.dropna()로 직진하기 전에 「얼마나·어디에 있는지」 확인하는 게 표준.

삭제 — dropna.

df.dropna() — NaN이 하나라도 있는 행 삭제.

df.dropna(axis=1) — NaN이 있는 열 삭제.

df.dropna(subset=["age"]) — age 열에 NaN이 있는 행만 삭제.

df.dropna(thresh=3) — non-NaN 값이 3개 미만인 행 삭제.

채우기 — fillna.

df.fillna(0) — 모든 NaN을 0으로.

df["age"].fillna(df["age"].mean()) — 그 열의 평균으로.

df.fillna(method="ffill") — 앞 값으로 채우기(시계열에 유용).

df.fillna(method="bfill") — 뒷 값으로.

더 영리한 방법들.

df.fillna({"age": 0, "city": "unknown"}) — 열별로 다른 값.

df.interpolate() — 선형 보간(시계열에 자주).

머신러닝 전 결측치 처리에서는 sklearn의 SimpleImputer·KNNImputer 같은 도구도 자주 쓰입니다.

결측치 처리 전략은 데이터의 의미와 분석 목적에 따라 다르므로 「무조건 dropna 또는 fillna(0)」 같은 기계적 처리는 위험합니다.

한 줄 요약

결측치는 isna로 진단, dropna로 삭제, fillna로 채웁니다.

평균·앞 값·뒷 값·보간 등 다양한 채우기 방법이 있고, 데이터 의미에 맞는 전략 선택이 중요합니다.

더 알아볼 것

- MCAR·MAR·MNAR — 결측 메커니즘

- sklearn의 SimpleImputer·KNNImputer

- 결측치 패턴 시각화

번호	제목	글쓴이	작성일	조회
131	Django — 풀스택 웹 프레임워크	부엉이	26/04/27	14
130	Flask 라우팅과 Jinja2 템플릿	야옹이	26/04/27	15
129	Flask — 마이크로 웹 프레임워크	별님이	26/04/27	14
128	Playwright — 모던한 브라우저 자동화	너구리	26/04/27	17
127	Selenium — 브라우저 자동화의 고전	부엉이	26/04/27	14
126	lxml과 CSS 셀렉터 — 더 빠른 파싱	구름이	26/04/27	14
125	웹 스크래핑 윤리 — robots.txt와 매너	곰돌이	26/04/27	17
124	BeautifulSoup — HTML 파싱의 친구	곰돌이	26/04/27	17
123	urllib과 http.client — 표준 라이브러리 저수준	야옹이	26/04/27	18
122	JSON API 다루기 — 송수신의 기본	멍뭉이	26/04/27	14
121	requests 세션 — 쿠키와 헤더 자동 유지	토순이	26/04/27	15
120	requests — 파이썬 HTTP 클라이언트의 표준	토순이	26/04/27	14
119	데이터 분석 워크플로 — EDA부터 보고까지	별님이	26/04/27	18
118	scikit-learn — 머신러닝의 표준	다람쥐	26/04/27	15
117	Polars — 더 빠른 새 DataFrame	별님이	26/04/27	15
116	melt와 pivot — long ↔ wide 변환	다람쥐	26/04/27	12
115	SQLAlchemy — DB와 파이썬 연결	햇살이	26/04/27	12
114	엑셀 파일 다루기 — openpyxl과 pandas	너구리	26/04/27	11
113	Plotly — 인터랙티브 시각화	부엉이	26/04/27	16
112	Seaborn — 통계 시각화에 강한	야옹이	26/04/27	14
111	한국어 폰트 설정 — 깨진 한글 해결	햇살이	26/04/27	17
110	Matplotlib — 시각화의 기초	곰돌이	26/04/27	12
109	apply — 임의 함수 적용	토순이	26/04/27	13
108	시계열 데이터 — DatetimeIndex와 리샘플링	햇살이	26/04/27	15
107	결측치 처리 — dropna와 fillna	멍뭉이	26/04/27	14
106	pivot_table — 피벗 테이블 만들기	햇살이	26/04/27	12
105	merge와 join — 데이터 결합	햇살이	26/04/27	11
104	groupby — 그룹별 집계	햇살이	26/04/27	14
103	DataFrame 필터링과 조건 선택	야옹이	26/04/27	13
102	DataFrame 인덱싱 — loc과 iloc	너구리	26/04/27	12

번호

제목

글쓴이

작성일

조회

131

Django — 풀스택 웹 프레임워크

부엉이

26/04/27

130

Flask 라우팅과 Jinja2 템플릿

야옹이

26/04/27

129

Flask — 마이크로 웹 프레임워크

별님이

26/04/27

128

Playwright — 모던한 브라우저 자동화

너구리

26/04/27

127

Selenium — 브라우저 자동화의 고전

부엉이

26/04/27

126

lxml과 CSS 셀렉터 — 더 빠른 파싱

구름이

26/04/27

125

웹 스크래핑 윤리 — robots.txt와 매너

곰돌이

26/04/27

124

BeautifulSoup — HTML 파싱의 친구

곰돌이

26/04/27

123

urllib과 http.client — 표준 라이브러리 저수준

야옹이

26/04/27

122

JSON API 다루기 — 송수신의 기본

멍뭉이

26/04/27

121

requests 세션 — 쿠키와 헤더 자동 유지

토순이

26/04/27

120

requests — 파이썬 HTTP 클라이언트의 표준

토순이

26/04/27

119

데이터 분석 워크플로 — EDA부터 보고까지

별님이

26/04/27

118

scikit-learn — 머신러닝의 표준

다람쥐

26/04/27

117

Polars — 더 빠른 새 DataFrame

별님이

26/04/27

116

melt와 pivot — long ↔ wide 변환

다람쥐

26/04/27

115

SQLAlchemy — DB와 파이썬 연결

햇살이

26/04/27

114

엑셀 파일 다루기 — openpyxl과 pandas

너구리

26/04/27

113

Plotly — 인터랙티브 시각화

부엉이

26/04/27

112

Seaborn — 통계 시각화에 강한

야옹이

26/04/27

111

한국어 폰트 설정 — 깨진 한글 해결

햇살이

26/04/27

110

Matplotlib — 시각화의 기초

곰돌이

26/04/27

109

apply — 임의 함수 적용

토순이

26/04/27

108

시계열 데이터 — DatetimeIndex와 리샘플링

햇살이

26/04/27

107

결측치 처리 — dropna와 fillna

멍뭉이

26/04/27

106

pivot_table — 피벗 테이블 만들기

햇살이

26/04/27

105

merge와 join — 데이터 결합

햇살이

26/04/27

104

groupby — 그룹별 집계

햇살이

26/04/27

103

DataFrame 필터링과 조건 선택

야옹이

26/04/27

102

DataFrame 인덱싱 — loc과 iloc

너구리

26/04/27