Pandas는 「표 형식 데이터(엑셀·CSV·DB) 처리의 표준 라이브러리」입니다.
NumPy 위에 만들어졌고, 「데이터 분석가의 칼」이라 불릴 만큼 데이터 분야에서 결정적인 역할을 합니다.
두 핵심 자료구조.
Series — 1차원 배열 + 인덱스.
「하나의 열」에 해당.
DataFrame — 2차원 표 + 행·열 인덱스.
「엑셀 시트」와 비슷한 구조.
DataFrame 만들기.
import pandas as pd.
data = {"name": ["홍", "김", "이"], "age": [30, 25, 28]}.
df = pd.DataFrame(data).
딕셔너리에서 자연스럽게 DataFrame을 만듭니다.
또 pd.read_csv("data.csv")로 파일에서 직접 읽기도 가능.
기본 정보 확인.
df.head() — 처음 5행(빠른 미리보기).
df.tail() — 마지막 5행.
df.shape — (행 수, 열 수).
df.columns — 열 이름 목록.
df.dtypes — 각 열의 자료형.
df.describe() — 수치형 열의 통계 요약(count·mean·std·min·max 등).
비유로 정리.
NumPy가 「숫자 격자(행렬)」라면 Pandas는 「이름 붙은 표(스프레드시트)」입니다.
행과 열에 의미 있는 이름이 붙어 있어, 「데이터의 의미」를 코드 안에서 직접 다룰 수 있습니다.
SQL이 「DB의 표」를 다루듯, Pandas는 「메모리 안의 표」를 다룹니다.
한 줄 요약
Pandas는 표 형식 데이터의 표준 라이브러리로, Series(1차원)와 DataFrame(2차원)이 핵심입니다.
head·shape·describe 같은 기본 함수로 데이터 구조를 빠르게 파악합니다.
더 알아볼 것
- pd.read_csv·read_excel·read_sql
- DataFrame vs Series 변환
- dtype 최적화로 메모리 절약