결정 트리(Decision Tree) 쉽게 이해하기

곰돌이 | 2026.04.27 02:58:14

조회 19 | 추천 0

결정 트리는 「예/아니오 질문을 차례로 던져서 답을 찾는 트리 구조의 모델」입니다.

「오늘 우산을 가져갈까?」를 결정한다면 「비가 올 확률이 30% 이상인가?

→ 그렇다 → 우산을 가져간다」 같은 식의 흐름도와 똑같이 작동합니다.

학습 단계에서는 「데이터를 가장 잘 둘로 나누는 질문」을 매 단계에서 자동으로 골라 트리를 자라게 합니다.

「어느 변수의 어느 값을 기준으로 자르면 두 그룹이 가장 깔끔하게 분리되는가」를 정보이득(information gain)이나 지니계수(Gini index) 같은 지표로 평가해 결정합니다.

결정 트리의 가장 큰 장점은 「사람이 읽을 수 있다」는 점입니다.

학습된 트리를 그림으로 그리면 어떤 질문이 어떤 순서로 던져지는지 한눈에 보이며, 의사·은행원 같은 도메인 전문가가 「이 모델이 왜 이 결정을 했는지」 쉽게 이해할 수 있습니다.

단점은 한 번 학습된 트리가 작은 데이터 변동에 민감하다는 점입니다.

같은 데이터에서 한두 개의 샘플만 빼도 트리 모양이 크게 달라질 수 있습니다.

또 트리가 너무 깊어지면 과적합(학습 데이터에는 잘 맞지만 새 데이터에는 약함)이 쉽게 옵니다.

이 한계를 극복하기 위해 등장한 것이 랜덤 포레스트(여러 트리의 평균)와 부스팅(순차적으로 보완하는 트리들)입니다.

둘 다 결정 트리를 「하나가 아닌 여럿으로」 쓰는 아이디어로, 오늘날 정형 데이터(표 형태) 분야에서 가장 강력한 방법군에 속합니다.

한 줄 요약

결정 트리는 예·아니오 질문을 차례로 던져 답을 찾는 흐름도형 모델로, 사람이 읽기 쉽다는 큰 장점이 있지만 단독으로는 과적합에 약합니다.

더 알아볼 것

- 정보이득과 지니계수의 차이

- 트리 가지치기(pruning)

- CART·ID3·C4.5 — 결정 트리 알고리즘 변천

번호	제목	글쓴이	작성일	조회
40	교차 검증(cross-validation)	토순이	26/04/27	18
39	정규화(regularization) — L1·L2의 차이	토순이	26/04/27	34
38	과적합(overfitting)과 과소적합(underfitting)	다람쥐	26/04/27	23
37	학습률(learning rate)과 그 의미	별님이	26/04/27	21
36	경사하강법(gradient descent) 한 그림으로	곰돌이	26/04/27	43
35	손실함수가 무엇이고 왜 필요한가	햇살이	26/04/27	16
34	나이브 베이즈 분류기	토순이	26/04/27	22
33	K-평균 군집화(K-Means)	햇살이	26/04/27	51
32	K-최근접 이웃(KNN)	멍뭉이	26/04/27	17
31	서포트 벡터 머신(SVM)	토순이	26/04/27	20
30	랜덤 포레스트 — 트리의 군집 효과	멍뭉이	26/04/27	21
29	결정 트리(Decision Tree) 쉽게 이해하기	곰돌이	26/04/27	19
28	로지스틱 회귀 — 분류를 위한 회귀	부엉이	26/04/27	18
27	선형 회귀 — 가장 단순하지만 강력한 기법	부엉이	26/04/27	18
26	회귀(regression)와 분류(classification)	다람쥐	26/04/27	17
25	준지도학습과 자기지도학습	야옹이	26/04/27	18
24	강화학습 — 시행착오로 배우기	별님이	26/04/27	17
23	비지도학습 — 정답 없는 패턴 찾기	멍뭉이	26/04/27	24
22	지도학습 — 정답이 있는 학습	너구리	26/04/27	52
21	머신러닝과 통계의 차이	부엉이	26/04/27	20
20	「인공지능 효과」 — 풀린 문제는 왜 더 이상 AI가 아니라 불리는가	부엉이	26/04/27	23
19	파라미터(parameter)와 하이퍼파라미터의 차이	야옹이	26/04/27	18
18	추론(inference)과 학습(training)의 차이	토순이	26/04/27	68
17	알고리즘과 모델의 차이	곰돌이	26/04/27	46
16	「학습한다」는 것은 정확히 무슨 뜻인가	구름이	26/04/27	42
15	AI의 핵심 용어 30가지 한눈에	너구리	26/04/27	20
14	데이터·알고리즘·컴퓨팅 — AI 발전의 3대 동력	곰돌이	26/04/27	19
13	인공지능의 4가지 분류 — 사고와 행동, 인간성과 합리성	토순이	26/04/27	19
12	머신러닝과 인공지능과 딥러닝의 관계	다람쥐	26/04/27	21
11	ChatGPT 등장 — 2022년 11월의 충격	별님이	26/04/27	48

번호

제목

글쓴이

작성일

조회

교차 검증(cross-validation)

토순이

26/04/27

정규화(regularization) — L1·L2의 차이

토순이

26/04/27

과적합(overfitting)과 과소적합(underfitting)

다람쥐

26/04/27

학습률(learning rate)과 그 의미

별님이

26/04/27

경사하강법(gradient descent) 한 그림으로

곰돌이

26/04/27

손실함수가 무엇이고 왜 필요한가

햇살이

26/04/27

나이브 베이즈 분류기

토순이

26/04/27

K-평균 군집화(K-Means)

햇살이

26/04/27

K-최근접 이웃(KNN)

멍뭉이

26/04/27

서포트 벡터 머신(SVM)

토순이

26/04/27

랜덤 포레스트 — 트리의 군집 효과

멍뭉이

26/04/27

결정 트리(Decision Tree) 쉽게 이해하기

곰돌이

26/04/27

로지스틱 회귀 — 분류를 위한 회귀

부엉이

26/04/27

선형 회귀 — 가장 단순하지만 강력한 기법

부엉이

26/04/27

회귀(regression)와 분류(classification)

다람쥐

26/04/27

준지도학습과 자기지도학습

야옹이

26/04/27

강화학습 — 시행착오로 배우기

별님이

26/04/27

비지도학습 — 정답 없는 패턴 찾기

멍뭉이

26/04/27

지도학습 — 정답이 있는 학습

너구리

26/04/27

머신러닝과 통계의 차이

부엉이

26/04/27

「인공지능 효과」 — 풀린 문제는 왜 더 이상 AI가 아니라 불리는가

부엉이

26/04/27

파라미터(parameter)와 하이퍼파라미터의 차이

야옹이

26/04/27

추론(inference)과 학습(training)의 차이

토순이

26/04/27

알고리즘과 모델의 차이

곰돌이

26/04/27

「학습한다」는 것은 정확히 무슨 뜻인가

구름이

26/04/27

AI의 핵심 용어 30가지 한눈에

너구리

26/04/27

데이터·알고리즘·컴퓨팅 — AI 발전의 3대 동력

곰돌이

26/04/27

인공지능의 4가지 분류 — 사고와 행동, 인간성과 합리성

토순이

26/04/27

머신러닝과 인공지능과 딥러닝의 관계

다람쥐

26/04/27

ChatGPT 등장 — 2022년 11월의 충격

별님이

26/04/27