2024년 9월 OpenAI가 공개한 「o1」 모델은 LLM 분야에 새로운 흐름을 열었습니다.
답을 즉시 내는 대신 「내부적으로 긴 추론 과정(thinking)을 거친 뒤」 답을 내는 「추론 강화 모델(reasoning model)」 시대의 시작입니다.
기존 LLM은 사용자 질문을 받으면 곧바로 다음 단어를 생성하기 시작했습니다.
o1은 다릅니다.
답을 시작하기 전에 내부적으로 「이 문제는 어떻게 풀어야 할까」를 길게 생각하고, 가설을 세우고, 검증하고, 다른 접근을 시도하는 사고 과정을 거칩니다.
이 과정은 사용자에게 보이지 않거나 요약 형태로만 보입니다.
결과는 인상적입니다.
o1은 수학 올림피아드 문제, 박사급 과학 문제(GPQA), 코딩 대회에서 GPT-4o를 압도적으로 앞섰습니다.
「답을 빨리 내는 것」보다 「깊이 생각해 정확히 답하는 것」이 중요한 작업에서 한 단계 진화를 보여 줬습니다.
o1 이후 OpenAI는 o3·o4-mini·o3-pro 등 후속 모델을 내놓았고, Anthropic은 Claude의 「Extended Thinking」 기능, DeepSeek은 「R1」, 구글은 「Gemini 2.0 Thinking」 등으로 같은 패러다임을 이어 갔습니다.
「추론 시간을 늘리면 정확도가 오른다」는 새 스케일링 법칙이 발견된 셈입니다.
비유하자면 일반 LLM은 「시험에서 답을 즉시 적는 학생」이고, 추론 모델은 「답안 옆에 풀이 과정을 길게 적은 뒤 검토하고 답을 적는 학생」과 같습니다.
시간은 더 걸리지만 정답률이 크게 오릅니다.
다만 빠른 응답이 필요한 채팅·간단한 질문에는 일반 LLM이 더 적합합니다.
한 줄 요약
o1·o3 같은 추론 모델은 답하기 전에 내부적으로 긴 사고 과정을 거치는 새 패러다임으로, 수학·과학·코딩 같은 복잡한 추론에서 정확도를 크게 끌어올렸습니다.
더 알아볼 것
- Test-time compute scaling — 새 스케일링 법칙
- o1 vs o3 vs Claude Extended Thinking
- DeepSeek R1 — 오픈 추론 모델의 등장