LLM의 성능을 객관적으로 비교하기 위해 다양한 「벤치마크(benchmark)」가 만들어져 있습니다.
각 벤치마크는 특정 능력에 초점을 맞추며, 모델 출시 때마다 점수표가 함께 공개됩니다.
주요 벤치마크 몇 가지를 알면 모델 비교가 훨씬 쉬워집니다.
MMLU(Massive Multitask Language Understanding)는 「57개 주제(수학·역사·법률·의학 등)의 4지선다 시험」으로 가장 자주 인용되는 종합 능력 벤치마크입니다.
사람 전문가 수준이 약 90%이고, 최신 모델들이 85~90% 점수를 기록하며 사람에 가까워지고 있습니다.
HumanEval은 「프로그래밍 함수 작성 시험」입니다.
자연어 설명을 보고 파이썬 코드를 작성한 뒤 단위 테스트를 통과하는지 평가합니다.
GPT-4가 67%, Claude가 92% 같은 식으로 코딩 능력의 비교 기준이 됩니다.
GPQA(Graduate-level Physics, Chemistry, Biology Questions)는 「박사급 전문가 수준의 과학 시험」입니다.
일반인은 거의 못 풀지만 박사 학위자는 약 65% 정답률을 보이는 어려운 벤치마크입니다.
추론 모델 o1·o3가 70~80%대를 기록하며 화제를 모았습니다.
그 외에 자주 쓰이는 벤치마크: GSM8K(초·중등 수학 문장제), MATH(대학·올림피아드 수학), SWE-bench(실제 GitHub 이슈 해결), Arena(사람 사용자가 직접 두 답을 비교해 투표), Korean LLM Leaderboard(한국어 평가).
모델 출시 때마다 이 점수들이 함께 공개되니 그 의미를 알면 비교가 명확해집니다.
한 줄 요약
MMLU(종합 시험), HumanEval(코딩), GPQA(박사급 과학), GSM8K·MATH(수학), SWE-bench(실제 코드 작업), Arena(사용자 투표) 같은 벤치마크가 LLM 성능 비교의 표준 잣대입니다.
더 알아볼 것
- Arena leaderboard — 사용자 투표 기반 순위
- 벤치마크의 함정 — 학습 데이터 오염
- KMMLU·HAE-RAE — 한국어 LLM 벤치마크