LLM 基准测试

模型基准测试对比

MMLU 测试广泛知识,HumanEval 测试编程能力,GPQA 测试研究生水平的科学知识。分数越高越好。价格为 API 参考价格,定期更新——请查阅提供商文档获取最新数据。

旗舰模型

模型MMLUHumanEvalGPQA上下文输入 / 百万 token输出 / 百万 token
GPT-4o
OpenAI
88.7%90.2%53.6%128K$2.50$10.00
Claude 3.5 Sonnet
Anthropic
88.3%92%59.4%200K$3.00$15.00
Gemini 1.5 Pro
Google
85.9%84.1%46.2%2M$1.25$5.00
Llama 3.1 405B
Meta
88.6%89%51.1%128K$0.80$0.80
DeepSeek V3
DeepSeek
88.5%84.7%59.1%128K$0.070$1.10

中端模型

模型MMLUHumanEvalGPQA上下文输入 / 百万 token输出 / 百万 token
Mistral Large 2
Mistral
84%92.1%46%128K$2.00$6.00
Qwen 2.5 72B
Alibaba
86%86.6%131K$0.40$1.20
Llama 3.1 70B
Meta
83.6%80.5%41.8%128K$0.40$0.40

高效模型

模型MMLUHumanEvalGPQA上下文输入 / 百万 token输出 / 百万 token
Gemini 2.0 Flash
Google
76.2%81.4%40.1%1M$0.10$0.40
Claude 3 Haiku
Anthropic
75.2%75.9%33.3%200K$0.25$1.25
GPT-4o mini
OpenAI
82%87.2%40.2%128K$0.15$0.60
Gemini 1.5 Flash
Google
78.9%74.3%1M$0.075$0.30

基准测试得分和价格为参考值,变化频繁。来源:模型提供商文档、LMSYS 排行榜、官方基准测试论文。最后审核:2026年5月。