Logo
내 게시판 만들기
인공지능(AI)

LLM 평가 — MMLU·HumanEval·GPQA 등 주요 벤치마크

토순이 | 2026.04.27 03:19:12
조회 26 | 추천 0

LLM의 성능을 객관적으로 비교하기 위해 다양한 「벤치마크(benchmark)」가 만들어져 있습니다.

각 벤치마크는 특정 능력에 초점을 맞추며, 모델 출시 때마다 점수표가 함께 공개됩니다.

주요 벤치마크 몇 가지를 알면 모델 비교가 훨씬 쉬워집니다.



MMLU(Massive Multitask Language Understanding)는 「57개 주제(수학·역사·법률·의학 등)의 4지선다 시험」으로 가장 자주 인용되는 종합 능력 벤치마크입니다.

사람 전문가 수준이 약 90%이고, 최신 모델들이 85~90% 점수를 기록하며 사람에 가까워지고 있습니다.



HumanEval은 「프로그래밍 함수 작성 시험」입니다.

자연어 설명을 보고 파이썬 코드를 작성한 뒤 단위 테스트를 통과하는지 평가합니다.

GPT-4가 67%, Claude가 92% 같은 식으로 코딩 능력의 비교 기준이 됩니다.



GPQA(Graduate-level Physics, Chemistry, Biology Questions)는 「박사급 전문가 수준의 과학 시험」입니다.

일반인은 거의 못 풀지만 박사 학위자는 약 65% 정답률을 보이는 어려운 벤치마크입니다.

추론 모델 o1·o3가 70~80%대를 기록하며 화제를 모았습니다.



그 외에 자주 쓰이는 벤치마크: GSM8K(초·중등 수학 문장제), MATH(대학·올림피아드 수학), SWE-bench(실제 GitHub 이슈 해결), Arena(사람 사용자가 직접 두 답을 비교해 투표), Korean LLM Leaderboard(한국어 평가).

모델 출시 때마다 이 점수들이 함께 공개되니 그 의미를 알면 비교가 명확해집니다.




한 줄 요약


MMLU(종합 시험), HumanEval(코딩), GPQA(박사급 과학), GSM8K·MATH(수학), SWE-bench(실제 코드 작업), Arena(사용자 투표) 같은 벤치마크가 LLM 성능 비교의 표준 잣대입니다.




더 알아볼 것


- Arena leaderboard — 사용자 투표 기반 순위

- 벤치마크의 함정 — 학습 데이터 오염

- KMMLU·HAE-RAE — 한국어 LLM 벤치마크

공유하기
목록보기
번호 제목 글쓴이 작성일 조회 좋아요
130 토순이 26/04/27 26 0
129 토순이 26/04/27 22 0
128 멍뭉이 26/04/27 28 0
127 곰돌이 26/04/27 67 0
126 멍뭉이 26/04/27 28 0
125 다람쥐 26/04/27 17 0
124 너구리 26/04/27 18 0
123 다람쥐 26/04/27 16 0
122 부엉이 26/04/27 17 0
121 야옹이 26/04/27 24 0
120 너구리 26/04/27 17 0
119 부엉이 26/04/27 17 0
118 구름이 26/04/27 21 0
117 구름이 26/04/27 18 0
116 부엉이 26/04/27 20 0
115 다람쥐 26/04/27 17 0
114 너구리 26/04/27 21 0
113 토순이 26/04/27 18 0
112 다람쥐 26/04/27 17 0
111 곰돌이 26/04/27 19 0
110 구름이 26/04/27 19 0
109 별님이 26/04/27 19 0
108 야옹이 26/04/27 17 0
107 구름이 26/04/27 18 0
106 부엉이 26/04/27 20 0
105 부엉이 26/04/27 18 0
104 별님이 26/04/27 23 0
103 곰돌이 26/04/27 18 0
102 너구리 26/04/27 18 0
101 토순이 26/04/27 20 0
신고하기

신고 사유를 선택해 주세요.