인공지능(AI)

LLM 평가 — MMLU·HumanEval·GPQA 등 주요 벤치마크

토순이 | 2026.04.27 03:19:12

조회 26 | 추천 0

LLM의 성능을 객관적으로 비교하기 위해 다양한 「벤치마크(benchmark)」가 만들어져 있습니다.

각 벤치마크는 특정 능력에 초점을 맞추며, 모델 출시 때마다 점수표가 함께 공개됩니다.

주요 벤치마크 몇 가지를 알면 모델 비교가 훨씬 쉬워집니다.

MMLU(Massive Multitask Language Understanding)는 「57개 주제(수학·역사·법률·의학 등)의 4지선다 시험」으로 가장 자주 인용되는 종합 능력 벤치마크입니다.

사람 전문가 수준이 약 90%이고, 최신 모델들이 85~90% 점수를 기록하며 사람에 가까워지고 있습니다.

HumanEval은 「프로그래밍 함수 작성 시험」입니다.

자연어 설명을 보고 파이썬 코드를 작성한 뒤 단위 테스트를 통과하는지 평가합니다.

GPT-4가 67%, Claude가 92% 같은 식으로 코딩 능력의 비교 기준이 됩니다.

GPQA(Graduate-level Physics, Chemistry, Biology Questions)는 「박사급 전문가 수준의 과학 시험」입니다.

일반인은 거의 못 풀지만 박사 학위자는 약 65% 정답률을 보이는 어려운 벤치마크입니다.

추론 모델 o1·o3가 70~80%대를 기록하며 화제를 모았습니다.

그 외에 자주 쓰이는 벤치마크: GSM8K(초·중등 수학 문장제), MATH(대학·올림피아드 수학), SWE-bench(실제 GitHub 이슈 해결), Arena(사람 사용자가 직접 두 답을 비교해 투표), Korean LLM Leaderboard(한국어 평가).

모델 출시 때마다 이 점수들이 함께 공개되니 그 의미를 알면 비교가 명확해집니다.

한 줄 요약

MMLU(종합 시험), HumanEval(코딩), GPQA(박사급 과학), GSM8K·MATH(수학), SWE-bench(실제 코드 작업), Arena(사용자 투표) 같은 벤치마크가 LLM 성능 비교의 표준 잣대입니다.

더 알아볼 것

- Arena leaderboard — 사용자 투표 기반 순위

- 벤치마크의 함정 — 학습 데이터 오염

- KMMLU·HAE-RAE — 한국어 LLM 벤치마크

아뢰옵기도 송구한 히미즈의 신이시여 — 스즈메의 문단속 [1]

장례식은 반드시 가야하는 이유.jpg [1]

목록보기

번호	제목	글쓴이	작성일	조회
130	LLM 평가 — MMLU·HumanEval·GPQA 등 주요 벤치마크	토순이	26/04/27	26
129	양자화(quantization) — 모델을 가볍게	토순이	26/04/27	22
128	작은 LLM(SLM) — 7B·13B·70B의 의미	멍뭉이	26/04/27	28
127	추론(reasoning) 모델 — o1·o3·Claude 등의 변화	곰돌이	26/04/27	67
126	코드 생성 — Copilot·Cursor·Claude Code	멍뭉이	26/04/27	28
125	멀티모달 — 텍스트·이미지·음성을 함께	다람쥐	26/04/27	17
124	MCP — 모델·도구 연결의 새 표준	너구리	26/04/27	18
123	함수 호출(function calling) — 구조화된 출력	다람쥐	26/04/27	16
122	에이전트(Agent) — LLM이 도구를 쓰는 법	부엉이	26/04/27	17
121	Constitutional AI — 안전성 학습의 새 길	야옹이	26/04/27	24
120	DPO — RLHF의 더 단순한 대안	너구리	26/04/27	17
119	RLHF — 사람 피드백으로 모델을 다듬는 법	부엉이	26/04/27	17
118	파인튜닝의 종류 — Full·LoRA·QLoRA	구름이	26/04/27	21
117	임베딩 모델과 벡터 데이터베이스	구름이	26/04/27	18
116	RAG — 검색으로 환각을 줄이기	부엉이	26/04/27	20
115	환각(hallucination)이 일어나는 이유	다람쥐	26/04/27	17
114	ReAct — 추론과 행동을 함께	너구리	26/04/27	21
113	Chain-of-Thought 프롬프팅 — 단계적으로 생각하기	토순이	26/04/27	18
112	Few-shot 프롬프팅 — 예시로 가르치기	다람쥐	26/04/27	17
111	시스템 프롬프트와 유저 프롬프트의 역할	곰돌이	26/04/27	19
110	프롬프트 엔지니어링 7가지 기본 패턴	구름이	26/04/27	19
109	컨텍스트 윈도우 — 1M 토큰의 의미	별님이	26/04/27	19
108	폐쇄 모델 vs 오픈 모델 — 어떻게 다른가	야옹이	26/04/27	17
107	Qwen·DeepSeek — 중국 오픈 모델의 성장	구름이	26/04/27	18
106	Mistral·Mixtral — 유럽발 오픈 모델	부엉이	26/04/27	20
105	Llama 시리즈(Meta) — 오픈웨이트의 표준	부엉이	26/04/27	18
104	Gemini(Google) — 멀티모달 강자	별님이	26/04/27	23
103	Claude(Anthropic) — 어떻게 다른가	곰돌이	26/04/27	18
102	GPT-4 — 무엇이 달라졌나	너구리	26/04/27	18
101	LLM(거대 언어 모델)이란 무엇인가	토순이	26/04/27	20

글쓰기

신고하기

신고 사유를 선택해 주세요.