머신러닝과 통계학은 「데이터로부터 무언가를 알아낸다」는 점에서 같지만, 강조하는 지점이 다릅니다.
통계학은 「데이터 뒤에 숨은 진짜 모형(예: 정규분포·회귀식)을 추정하고 그 추정의 신뢰도를 따지는 일」에 초점을 둡니다.
즉 「왜(why)」를 묻는 학문에 가깝습니다.
머신러닝은 「데이터를 잘 예측하는 함수를 만들어 내는 일」에 초점을 둡니다.
모형의 내부 구조보다 결과의 정확도가 우선이고, 이론적 가정을 덜 까다롭게 둡니다.
즉 「잘 맞히는가(does it work)」를 묻는 공학에 가깝습니다.
비유하자면 통계학자는 「병의 원인을 끝까지 파헤치는 진단의학 전문의」이고, 머신러닝 엔지니어는 「수많은 환자를 빠르게 치료해 내는 응급실 의사」와 비슷합니다.
둘 다 환자를 돕지만 접근 방식이 다릅니다.
두 분야는 적대적이지 않고 서로 보완합니다.
머신러닝의 많은 알고리즘이 통계학의 토대(베이즈 정리·최대우도법·정규화) 위에 서 있고, 거꾸로 통계학자도 머신러닝의 기법을 빌려 큰 데이터를 다룹니다.
오늘날 데이터 사이언스라는 분야는 두 흐름이 한자리에서 만난 결과입니다.
한 줄 요약
통계학은 「왜」를 묻고 모형의 신뢰도를 따지는 학문이며, 머신러닝은 「잘 맞히는가」를 묻고 예측 정확도를 우선시하는 공학입니다.
둘은 적대적이 아니라 보완 관계입니다.
더 알아볼 것
- 베이즈 통계학과 머신러닝의 관계
- p-value가 머신러닝에서 거의 안 쓰이는 이유
- 데이터 사이언스가 두 분야를 잇는 방식