LLM(Large Language Model, 거대 언어 모델)은 「수백억~수조 개의 파라미터를 가지고 인터넷 규모의 텍스트로 학습된 언어 모델」을 가리킵니다.
ChatGPT·Claude·Gemini가 모두 LLM이고, 현재 AI 분야의 가장 활발한 연구 영역입니다.
「Large」가 뜻하는 크기에는 두 가지 축이 있습니다.
첫째, 파라미터 수 — 보통 70억(7B) 이상이면 LLM으로 부릅니다.
둘째, 학습 데이터 — 수조 개의 토큰으로 학습됩니다.
GPT-4는 추정 1조 7천억 파라미터, Llama 3 405B는 4,050억 파라미터를 가집니다.
LLM의 학습 과제는 의외로 단순합니다.
「긴 문장이 주어지면 다음 단어를 예측하는」 일입니다.
「오늘 날씨가 ___」에서 빈칸을 「좋다」, 「흐리다」 같은 단어로 메우는 식입니다.
인터넷의 모든 텍스트로 이 단순한 과제를 거대 규모로 반복하면, 결과적으로 모델이 언어·세상 지식·추론 능력까지 익히게 됩니다.
비유하자면 LLM은 「인류가 쓴 거의 모든 텍스트를 다 읽고, 다음 한 단어가 무엇일지 매번 맞히는 연습을 수조 번 한 학생」과 같습니다.
그 연습의 부산물로 문법·상식·역사·과학·코딩까지 다양한 능력이 자연스럽게 만들어집니다.
다만 LLM은 「지식 베이스」가 아니라 「확률 모델」이라는 점을 잊으면 안 됩니다.
사실을 외워서 답하는 게 아니라 「가장 그럴듯한 다음 단어」를 예측할 뿐입니다.
그래서 사실에 어긋나는 그럴듯한 답(환각)을 내기도 하고, 학습 데이터에 없는 최신 정보는 모릅니다.
한 줄 요약
LLM은 수백억~수조 파라미터의 거대 언어 모델로, 「다음 단어 예측」이라는 단순한 과제를 인터넷 규모로 학습한 결과 언어·지식·추론 능력을 함께 얻은 모델입니다.
더 알아볼 것
- 스케일링 법칙(Scaling Law) — 크기와 성능의 관계
- Emergent abilities — 크기가 만들어 내는 새 능력
- Foundation Model — LLM을 포함한 더 큰 개념