AI에서 「학습(training)」과 「추론(inference)」은 한 모델의 인생에서 가장 큰 두 단계입니다.
학습은 모델을 「만드는」 시간이고, 추론은 만들어진 모델을 「쓰는」 시간입니다.
학습 단계에서는 거대한 데이터를 모델에 거듭 보여 주고, 모델 안의 수많은 파라미터를 조정해 예측이 정답에 가까워지도록 만듭니다.
GPT-4처럼 큰 모델의 학습에는 수만 대의 GPU와 수개월의 시간, 수억 달러의 비용이 들 수 있습니다.
이 단계가 끝나면 모델 가중치(weights)라는 거대한 숫자 묶음이 만들어지고, 이것이 곧 「학습이 끝난 모델」입니다.
추론 단계에서는 그 가중치를 메모리에 올려 두고, 사용자가 보낸 입력(예: 「안녕」이라는 문장)에 대해 출력을 계산합니다.
학습 때와 달리 파라미터를 더 이상 바꾸지 않고, 그냥 가지고 있는 가중치로 「전방 계산」만 한 번 수행합니다.
한 번의 추론은 보통 수십 밀리초~수 초 안에 끝납니다.
비유하자면 학습은 「수년간 의대를 다녀 의사가 되는 과정」이고, 추론은 「이미 의사가 된 사람이 환자를 한 명 진료하는 과정」입니다.
같은 의사가 한 명을 진료하는 데는 짧은 시간이 들지만, 그 의사를 길러 내는 데는 매우 긴 시간이 듭니다.
두 단계의 비용 구조도 다릅니다.
학습 비용은 「한 번 크게 들어가고 끝나는」 일회성에 가깝고, 추론 비용은 「사용자가 늘어날수록 함께 늘어나는」 반복성에 가깝습니다.
그래서 OpenAI 같은 회사들은 「학습 비용은 자기들이 떠안되, 추론 비용은 API 가격에 반영하는」 사업 모델을 씁니다.
한 줄 요약
학습은 모델을 만드는 무거운 일회성 작업이고 추론은 만들어진 모델을 쓰는 반복적 작업입니다.
학습은 의대 졸업, 추론은 환자 한 명을 진료하는 일에 비유할 수 있습니다.
더 알아볼 것
- 왜 추론 최적화가 점점 중요해지는가
- vLLM·TensorRT — 추론 가속 기술
- KV 캐시 — LLM 추론을 빠르게 하는 비밀