scikit-learn은 「전통 머신러닝의 표준 라이브러리」입니다.
분류·회귀·군집화·차원 축소 같은 거의 모든 기본 ML 알고리즘을 일관된 인터페이스로 제공합니다.
데이터 분석가·ML 엔지니어의 기본기입니다.
기본 흐름.
from sklearn.linear_model import LinearRegression.
model = LinearRegression().
model.fit(X_train, y_train) — 학습.
y_pred = model.predict(X_test) — 예측.
model.score(X_test, y_test) — 평가.
모델이 무엇이든 「fit → predict → score」 패턴으로 통일되어 있습니다.
주요 모델.
분류 — LogisticRegression, RandomForestClassifier, SVC.
회귀 — LinearRegression, RandomForestRegressor, GradientBoostingRegressor.
군집화 — KMeans, DBSCAN.
차원 축소 — PCA, t-SNE.
모두 같은 fit/predict 인터페이스라 모델 교체가 한 줄.
Pipeline.
전처리 + 모델을 한 묶음으로.
pipeline = Pipeline([("scaler", StandardScaler()), ("clf", LogisticRegression())]).
pipeline.fit(X_train, y_train).
학습·예측 모두 자동으로 같은 전처리가 적용되어 데이터 누설(leakage) 방지에 결정적.
교차 검증·그리드 검색.
cross_val_score(model, X, y, cv=5) — 5폴드 교차 검증.
GridSearchCV(model, param_grid) — 하이퍼파라미터 자동 탐색.
모델 평가·튜닝의 표준 도구.
딥러닝 시대에도 「표 형식 데이터」에는 여전히 scikit-learn이 우세하며, AI 입문 첫 걸음으로 가장 자주 권장되는 라이브러리입니다.
한 줄 요약
scikit-learn은 전통 ML의 표준 라이브러리로, 모든 모델이 fit/predict/score의 일관된 인터페이스를 가집니다.
Pipeline·교차 검증·그리드 검색 같은 풍부한 평가·튜닝 도구를 제공합니다.
더 알아볼 것
- Pipeline + ColumnTransformer 패턴
- XGBoost·LightGBM — sklearn 호환
- sklearn 0.24 → 1.0 → 1.x 변천