분류 모델을 평가할 때 가장 친숙한 지표는 「정확도(accuracy)」입니다.
「전체 중에 맞힌 비율」 — 100문제 중 95문제 맞히면 95%.
단순하지만 클래스 불균형이 심할 때는 함정이 있습니다.
1만 명 중 단 1명이 환자인 데이터에서는 「전부 정상」이라 답해도 정확도 99.99%가 나오기 때문입니다.
이를 보완하는 두 지표가 「정밀도(precision)」와 「재현율(recall)」입니다.
정밀도는 「내가 양성이라 한 것 중 실제 양성의 비율」, 재현율은 「실제 양성 중 내가 잡아낸 비율」입니다.
의료 진단으로 비유하면 정밀도는 「내가 환자라 진단한 사람들 중 진짜 환자가 얼마나 되는가」, 재현율은 「실제 환자들 중 내가 놓치지 않고 잡아낸 비율은 얼마인가」입니다.
두 지표는 보통 한쪽을 올리면 다른 쪽이 내려가는 트레이드오프 관계입니다.
「의심되면 모두 양성으로 분류」하면 재현율은 높아지지만 정밀도는 떨어집니다.
반대로 「확실할 때만 양성」이면 정밀도는 높지만 재현율은 떨어집니다.
이 둘의 균형을 한 숫자로 보고 싶을 때 쓰는 지표가 「F1 점수」입니다.
정밀도와 재현율의 조화평균으로, 두 값이 모두 높을 때만 큰 값이 나옵니다.
한쪽만 100이고 다른 쪽이 0이면 F1은 0입니다.
어떤 지표를 우선해야 하는지는 분야에 따라 다릅니다.
암 진단처럼 「놓치면 큰일」이라면 재현율 우선, 스팸 필터처럼 「잘못 분류하면 사용자가 짜증」이라면 정밀도 우선, 일반적으로는 F1이 균형 지표로 쓰입니다.
한 줄 요약
정확도는 단순하지만 불균형에 약합니다.
정밀도는 「양성 진단의 신뢰도」, 재현율은 「놓치지 않은 비율」이며, 두 지표의 균형은 F1으로 봅니다.
더 알아볼 것
- 다중 클래스에서의 macro·weighted 평균
- ROC AUC vs F1 — 언제 무엇을 쓸까
- 불균형 데이터의 평가 — PR 곡선