LLM 基准测试

模型基准测试对比

Name: LLM 基准测试对比
Creator: XScanHub
License: https://creativecommons.org/licenses/by/4.0/
Keywords: MMLU, HumanEval, GPQA, LLM 基准测试, AI 模型对比, 上下文窗口, API 价格

MMLU 测试广泛知识，HumanEval 测试编程能力，GPQA 测试研究生水平的科学知识。分数越高越好。价格为 API 参考价格，定期更新——请查阅提供商文档获取最新数据。

旗舰模型

模型	MMLU	HumanEval	GPQA	上下文	输入 / 百万 token	输出 / 百万 token
GPT-4o OpenAI	88.7%	90.2%	53.6%	128K	$2.50	$10.00
Claude 3.5 Sonnet Anthropic	88.3%	92%	59.4%	200K	$3.00	$15.00
Gemini 1.5 Pro Google	85.9%	84.1%	46.2%	2M	$1.25	$5.00
Llama 3.1 405B Meta	88.6%	89%	51.1%	128K	$0.80	$0.80
DeepSeek V3 DeepSeek	88.5%	84.7%	59.1%	128K	$0.070	$1.10

中端模型

模型	MMLU	HumanEval	GPQA	上下文	输入 / 百万 token	输出 / 百万 token
Mistral Large 2 Mistral	84%	92.1%	46%	128K	$2.00	$6.00
Qwen 2.5 72B Alibaba	86%	86.6%	—	131K	$0.40	$1.20
Llama 3.1 70B Meta	83.6%	80.5%	41.8%	128K	$0.40	$0.40

高效模型

模型	MMLU	HumanEval	GPQA	上下文	输入 / 百万 token	输出 / 百万 token
Gemini 2.0 Flash Google	76.2%	81.4%	40.1%	1M	$0.10	$0.40
Claude 3 Haiku Anthropic	75.2%	75.9%	33.3%	200K	$0.25	$1.25
GPT-4o mini OpenAI	82%	87.2%	40.2%	128K	$0.15	$0.60
Gemini 1.5 Flash Google	78.9%	74.3%	—	1M	$0.075	$0.30

基准测试得分和价格为参考值，变化频繁。来源：模型提供商文档、LMSYS 排行榜、官方基准测试论文。最后审核：2026年5月。