이름이 「회귀」이지만 로지스틱 회귀(logistic regression)는 사실 「분류」를 위한 모델입니다.
「입력을 받아 0과 1 사이의 확률을 출력하고, 그 확률을 기준으로 두 범주 중 하나로 분류하는」 방식입니다.
예를 들어 「이 이메일이 스팸인가?」를 풀고 싶다면, 로지스틱 회귀는 「입력의 특징(특정 단어 빈도, 발신자 등)을 받아 0~1 사이의 확률 p를 계산」합니다.
보통 p가 0.5보다 크면 「스팸」으로, 작으면 「정상」으로 분류합니다.
이름에 「회귀」가 붙은 이유는 내부 구조 때문입니다.
선형 회귀처럼 「a₁×x₁ + a₂×x₂ + ...
+ b」 형태의 직선을 먼저 계산한 뒤, 그 결과를 「시그모이드(sigmoid)」 함수에 통과시켜 0~1 사이의 확률로 짜내는 식입니다.
즉 「선형 회귀 + 시그모이드 = 로지스틱 회귀」입니다.
로지스틱 회귀의 큰 장점은 결과 해석이 쉽다는 점입니다.
각 입력 변수의 계수가 「이 특징이 1만큼 늘면 「스팸일 로그 오즈」가 얼마만큼 늘어나는가」를 알려 주므로, 모델이 어디에 어떤 무게를 두는지 명료히 볼 수 있습니다.
스팸 필터, 신용 평가, 질병 진단의 출발점으로 거의 모든 곳에서 쓰입니다.
단순한 만큼 한계도 있어 변수와 결과의 관계가 복잡하면 정확도가 떨어지며, 이런 경우 결정 트리·신경망 같은 더 강한 모델로 옮겨 갑니다.
한 줄 요약
로지스틱 회귀는 「선형 회귀 + 시그모이드」로 0~1 확률을 만들어 두 범주를 분류하는 모델입니다.
결과 해석이 쉬워 의료·금융 분야의 출발점으로 가장 자주 쓰입니다.
더 알아볼 것
- 시그모이드 함수의 모양과 의미
- 다중 클래스 분류로 확장한 소프트맥스 회귀
- 로지스틱 회귀의 결정 경계