선형 회귀(linear regression)는 머신러닝의 가장 오래되고 단순한 기법이지만, 지금도 통계·금융·의학 등 거의 모든 분야에서 쓰이는 기본기입니다.
한마디로 「입력 변수와 출력 변수 사이에 직선의 관계가 있다고 가정하고 그 직선의 기울기와 절편을 찾는 일」입니다.
예를 들어 집값을 예측하고 싶다면 「집값 = a × 평수 + b」라는 식을 가정합니다.
그 다음 과거 거래 데이터를 보고 「평수가 1평 늘 때마다 가격이 평균 a만큼 오른다」와 「평수가 0이어도 기본 b만큼은 한다」를 가장 잘 설명하는 a와 b를 찾습니다.
이때 「가장 잘 설명한다」를 어떻게 정하느냐가 핵심입니다.
보통 「예측값과 실제 값의 차이를 제곱한 합(SSE)이 가장 작은 a, b」를 찾습니다.
이 방법을 「최소제곱법(Least Squares)」이라 부르며, 19세기 가우스가 정립했습니다.
변수가 여러 개일 때는 「집값 = a₁×평수 + a₂×방수 + a₃×층수 + b」처럼 식이 확장됩니다.
이를 「다중 선형 회귀」라 부르며, 사실상 모든 회귀 모델의 출발점이 됩니다.
선형 회귀의 매력은 결과가 직관적이라는 점입니다.
「a₁이 양수면 평수가 클수록 비싸진다」는 식의 해석이 즉시 가능합니다.
다만 변수와 출력의 관계가 정말 「직선」이 아니면 한계가 분명하고, 이때는 다항 회귀·로지스틱 회귀·트리 모델 등 비선형 기법으로 옮겨 갑니다.
한 줄 요약
선형 회귀는 「입력과 출력 사이에 직선 관계가 있다」고 가정하고 그 기울기와 절편을 최소제곱법으로 찾는 가장 기본적인 회귀 모델입니다.
더 알아볼 것
- 최소제곱법의 기하학적 의미
- 릿지·라쏘 — 정규화 선형 회귀
- 다항 회귀와 비선형 변환