Logo
내 게시판 만들기
파이썬

NumPy 통계와 집계 — 데이터 요약의 기본

햇살이 | 2026.04.27 13:21:27
조회 15 | 추천 0

NumPy는 「수치 계산의 기반」이지만 동시에 「방대한 통계·집계 함수」의 보고이기도 합니다.

pandas도 내부적으로 NumPy를 호출하므로, 통계 함수의 기본을 알면 데이터 분석 전반이 빨라집니다.



기본 통계.

arr = np.array([1, 2, 3, 4, 5]).

arr.mean() — 평균.

arr.median() — 중앙값(np.median(arr) 형태).

arr.std() — 표준편차.

arr.var() — 분산.

arr.min(), arr.max(), arr.sum().



축(axis) 인자.

2차원 이상에서 핵심.

arr2d.sum(axis=0) — 열별 합(세로 방향), axis=1 — 행별 합(가로 방향).

axis 안 주면 전체 단일 값.

「어느 방향으로 합칠 것인가」를 명확히.



고급 통계.

np.percentile(arr, 90) — 90 백분위수.

np.quantile(arr, 0.5) — 분위수(0.5 = 중앙값).

np.corrcoef(x, y) — 상관계수.

np.cov(x, y) — 공분산.

머신러닝 전 데이터 점검에 자주 사용.



결측치 무시.

일반 함수는 NaN이 있으면 결과가 NaN — 「데이터 망가짐」 신호.

np.nanmean·nanmedian·nansum — NaN 무시하고 계산.

불완전한 데이터에서 「의미 있는 통계」를 내는 데 필수.




한 줄 요약


NumPy의 통계 함수는 mean·median·std·percentile 등 풍부.

axis 인자로 방향 지정, NaN 처리는 nan*** 함수.

pandas도 내부적으로 NumPy 호출하므로 기본 알면 분석 빠름.




더 알아볼 것


- np.histogram — 분포 만들기

- scipy.stats — 더 풍부한 통계

- 결측치 처리 — pandas dropna/fillna

공유하기
목록보기
번호 제목 글쓴이 작성일 조회 좋아요
221 햇살이 26/04/27 15 0
220 다람쥐 26/04/27 15 0
219 다람쥐 26/04/27 19 0
218 토순이 26/04/27 22 0
217 다람쥐 26/04/27 14 0
216 다람쥐 26/04/27 14 0
215 별님이 26/04/27 14 0
214 별님이 26/04/27 14 0
213 멍뭉이 26/04/27 18 0
212 별님이 26/04/27 16 0
211 다람쥐 26/04/27 17 0
210 햇살이 26/04/27 17 0
209 구름이 26/04/27 16 0
208 야옹이 26/04/27 14 0
207 토순이 26/04/27 23 0
206 다람쥐 26/04/27 17 0
205 곰돌이 26/04/27 20 0
204 햇살이 26/04/27 22 0
203 다람쥐 26/04/27 23 0
202 곰돌이 26/04/27 18 0
201 토순이 26/04/27 16 0
200 부엉이 26/04/27 16 0
199 다람쥐 26/04/27 14 0
198 별님이 26/04/27 19 0
197 야옹이 26/04/27 15 0
196 구름이 26/04/27 15 0
195 야옹이 26/04/27 16 0
194 너구리 26/04/27 45 0
193 멍뭉이 26/04/27 16 0
192 다람쥐 26/04/27 17 0
신고하기

신고 사유를 선택해 주세요.