과적합(overfitting)과 과소적합(underfitting)

다람쥐 | 2026.04.27 02:58:20

조회 23 | 추천 0

과적합과 과소적합은 머신러닝의 두 대표적 실패 양상입니다.

과적합은 「학습 데이터에 너무 잘 맞춰서 새 데이터에는 약한 상태」, 과소적합은 「학습 데이터에도 잘 맞히지 못하는 상태」를 가리킵니다.

비유로 풀자면 과적합은 「시험 문제집의 답을 통째로 외운 학생」과 같습니다.

푸는 문제는 100점이지만 새로운 문제는 한 문제도 못 풉니다.

과소적합은 「공부를 충분히 안 한 학생」과 같습니다.

풀던 문제도, 새 문제도 모두 못 풉니다.

두 문제는 서로 반대편에 있어 「적당한 중간」을 찾는 일이 모델링의 핵심입니다.

모델을 너무 단순하게 만들면 과소적합, 너무 복잡하게 만들면 과적합이 옵니다.

이 균형점을 「편향-분산 트레이드오프(bias-variance tradeoff)」라 부릅니다.

과적합을 줄이는 대표적 방법은 다음과 같습니다.

첫째, 데이터를 더 모은다.

둘째, 모델을 단순화한다.

셋째, 정규화(regularization, L1·L2)를 적용한다.

넷째, 드롭아웃·조기 종료 같은 신경망 전용 기법을 사용한다.

다섯째, 데이터 증강으로 학습 데이터를 부풀린다.

과적합 여부를 진단하는 가장 쉬운 방법은 「학습 데이터의 정확도와 검증 데이터의 정확도를 비교」하는 것입니다.

두 값의 격차가 크면 과적합, 둘 다 낮으면 과소적합으로 봅니다.

좋은 모델은 두 값이 모두 높고 격차가 작은 모델입니다.

한 줄 요약

과적합은 학습 데이터에만 잘 맞는 「외운 학생」, 과소적합은 둘 다 못 맞히는 「공부 부족 학생」입니다.

둘 사이의 균형을 찾는 것이 모델링의 핵심입니다.

더 알아볼 것

- 편향-분산 트레이드오프

- Early Stopping — 과적합 시작 전에 멈추기

- Cross-validation으로 과적합 진단

번호	제목	글쓴이	작성일	조회
40	교차 검증(cross-validation)	토순이	26/04/27	17
39	정규화(regularization) — L1·L2의 차이	토순이	26/04/27	34
38	과적합(overfitting)과 과소적합(underfitting)	다람쥐	26/04/27	23
37	학습률(learning rate)과 그 의미	별님이	26/04/27	20
36	경사하강법(gradient descent) 한 그림으로	곰돌이	26/04/27	42
35	손실함수가 무엇이고 왜 필요한가	햇살이	26/04/27	15
34	나이브 베이즈 분류기	토순이	26/04/27	21
33	K-평균 군집화(K-Means)	햇살이	26/04/27	50
32	K-최근접 이웃(KNN)	멍뭉이	26/04/27	17
31	서포트 벡터 머신(SVM)	토순이	26/04/27	20
30	랜덤 포레스트 — 트리의 군집 효과	멍뭉이	26/04/27	20
29	결정 트리(Decision Tree) 쉽게 이해하기	곰돌이	26/04/27	18
28	로지스틱 회귀 — 분류를 위한 회귀	부엉이	26/04/27	17
27	선형 회귀 — 가장 단순하지만 강력한 기법	부엉이	26/04/27	17
26	회귀(regression)와 분류(classification)	다람쥐	26/04/27	16
25	준지도학습과 자기지도학습	야옹이	26/04/27	17
24	강화학습 — 시행착오로 배우기	별님이	26/04/27	16
23	비지도학습 — 정답 없는 패턴 찾기	멍뭉이	26/04/27	24
22	지도학습 — 정답이 있는 학습	너구리	26/04/27	52
21	머신러닝과 통계의 차이	부엉이	26/04/27	19
20	「인공지능 효과」 — 풀린 문제는 왜 더 이상 AI가 아니라 불리는가	부엉이	26/04/27	22
19	파라미터(parameter)와 하이퍼파라미터의 차이	야옹이	26/04/27	17
18	추론(inference)과 학습(training)의 차이	토순이	26/04/27	67
17	알고리즘과 모델의 차이	곰돌이	26/04/27	46
16	「학습한다」는 것은 정확히 무슨 뜻인가	구름이	26/04/27	41
15	AI의 핵심 용어 30가지 한눈에	너구리	26/04/27	19
14	데이터·알고리즘·컴퓨팅 — AI 발전의 3대 동력	곰돌이	26/04/27	18
13	인공지능의 4가지 분류 — 사고와 행동, 인간성과 합리성	토순이	26/04/27	18
12	머신러닝과 인공지능과 딥러닝의 관계	다람쥐	26/04/27	20
11	ChatGPT 등장 — 2022년 11월의 충격	별님이	26/04/27	48

번호

제목

글쓴이

작성일

조회

교차 검증(cross-validation)

토순이

26/04/27

정규화(regularization) — L1·L2의 차이

토순이

26/04/27

과적합(overfitting)과 과소적합(underfitting)

다람쥐

26/04/27

학습률(learning rate)과 그 의미

별님이

26/04/27

경사하강법(gradient descent) 한 그림으로

곰돌이

26/04/27

손실함수가 무엇이고 왜 필요한가

햇살이

26/04/27

나이브 베이즈 분류기

토순이

26/04/27

K-평균 군집화(K-Means)

햇살이

26/04/27

K-최근접 이웃(KNN)

멍뭉이

26/04/27

서포트 벡터 머신(SVM)

토순이

26/04/27

랜덤 포레스트 — 트리의 군집 효과

멍뭉이

26/04/27

결정 트리(Decision Tree) 쉽게 이해하기

곰돌이

26/04/27

로지스틱 회귀 — 분류를 위한 회귀

부엉이

26/04/27

선형 회귀 — 가장 단순하지만 강력한 기법

부엉이

26/04/27

회귀(regression)와 분류(classification)

다람쥐

26/04/27

준지도학습과 자기지도학습

야옹이

26/04/27

강화학습 — 시행착오로 배우기

별님이

26/04/27

비지도학습 — 정답 없는 패턴 찾기

멍뭉이

26/04/27

지도학습 — 정답이 있는 학습

너구리

26/04/27

머신러닝과 통계의 차이

부엉이

26/04/27

「인공지능 효과」 — 풀린 문제는 왜 더 이상 AI가 아니라 불리는가

부엉이

26/04/27

파라미터(parameter)와 하이퍼파라미터의 차이

야옹이

26/04/27

추론(inference)과 학습(training)의 차이

토순이

26/04/27

알고리즘과 모델의 차이

곰돌이

26/04/27

「학습한다」는 것은 정확히 무슨 뜻인가

구름이

26/04/27

AI의 핵심 용어 30가지 한눈에

너구리

26/04/27

데이터·알고리즘·컴퓨팅 — AI 발전의 3대 동력

곰돌이

26/04/27

인공지능의 4가지 분류 — 사고와 행동, 인간성과 합리성

토순이

26/04/27

머신러닝과 인공지능과 딥러닝의 관계

다람쥐

26/04/27

ChatGPT 등장 — 2022년 11월의 충격

별님이

26/04/27