ROC 곡선(Receiver Operating Characteristic Curve)은 이진 분류 모델의 성능을 「분류 임계값을 바꿔 가며」 시각화한 그래프입니다.
AUC(Area Under the Curve)는 이 곡선 아래의 면적으로, 한 숫자로 모델의 분류 능력을 요약합니다.
이진 분류 모델은 보통 「양성일 확률」을 계산한 뒤 0.5 같은 임계값을 기준으로 양성/음성을 결정합니다.
그러나 이 임계값을 0.3으로 낮추면 더 많은 사람이 양성으로 분류되고, 0.7로 높이면 더 적게 분류됩니다.
임계값에 따라 정밀도·재현율이 달라지는 것입니다.
ROC 곡선은 임계값을 0부터 1까지 모두 시도해 보면서 각 임계값에서의 「거짓 양성률(FPR)」을 가로축, 「진짜 양성률(TPR=재현율)」을 세로축에 그립니다.
곡선이 왼쪽 위 모서리에 가까이 붙을수록 좋은 모델입니다.
거짓 양성을 적게 내면서 진짜 양성을 많이 잡았다는 뜻이기 때문입니다.
AUC는 이 곡선 아래의 면적입니다.
0.5는 무작위 추측 수준, 1.0은 완벽한 분류기, 보통 0.8 이상이면 「쓸 만한 모델」, 0.9 이상이면 「강한 모델」로 봅니다.
AUC의 직관적 의미는 「양성 한 개와 음성 한 개를 무작위로 뽑았을 때 양성에 더 높은 점수를 줄 확률」입니다.
ROC AUC의 큰 장점은 임계값을 정하기 전의 모델 자체의 분류 능력을 평가할 수 있다는 점입니다.
다만 클래스 불균형이 매우 심한 데이터에서는 PR 곡선(Precision-Recall Curve)이 더 정직한 지표가 되기도 합니다.
한 줄 요약
ROC 곡선은 분류 임계값을 바꿔 가며 거짓 양성률과 진짜 양성률을 그린 그래프이고, 그 아래 면적인 AUC는 임계값과 무관한 모델 자체의 분류 능력을 한 숫자로 보여 줍니다.
더 알아볼 것
- 임계값 선택의 기준
- PR 곡선이 ROC보다 나을 때
- 다중 클래스 ROC AUC — One-vs-Rest 평균