LLM 基准测试
模型基准测试对比
MMLU 测试广泛知识,HumanEval 测试编程能力,GPQA 测试研究生水平的科学知识。分数越高越好。价格为 API 参考价格,定期更新——请查阅提供商文档获取最新数据。
旗舰模型
| 模型 | MMLU | HumanEval | GPQA | 上下文 | 输入 / 百万 token | 输出 / 百万 token |
|---|---|---|---|---|---|---|
| GPT-4o OpenAI | 88.7% | 90.2% | 53.6% | 128K | $2.50 | $10.00 |
| Claude 3.5 Sonnet Anthropic | 88.3% | 92% | 59.4% | 200K | $3.00 | $15.00 |
| Gemini 1.5 Pro Google | 85.9% | 84.1% | 46.2% | 2M | $1.25 | $5.00 |
| Llama 3.1 405B Meta | 88.6% | 89% | 51.1% | 128K | $0.80 | $0.80 |
| DeepSeek V3 DeepSeek | 88.5% | 84.7% | 59.1% | 128K | $0.070 | $1.10 |
中端模型
| 模型 | MMLU | HumanEval | GPQA | 上下文 | 输入 / 百万 token | 输出 / 百万 token |
|---|---|---|---|---|---|---|
| Mistral Large 2 Mistral | 84% | 92.1% | 46% | 128K | $2.00 | $6.00 |
| Qwen 2.5 72B Alibaba | 86% | 86.6% | — | 131K | $0.40 | $1.20 |
| Llama 3.1 70B Meta | 83.6% | 80.5% | 41.8% | 128K | $0.40 | $0.40 |
高效模型
| 模型 | MMLU | HumanEval | GPQA | 上下文 | 输入 / 百万 token | 输出 / 百万 token |
|---|---|---|---|---|---|---|
| Gemini 2.0 Flash Google | 76.2% | 81.4% | 40.1% | 1M | $0.10 | $0.40 |
| Claude 3 Haiku Anthropic | 75.2% | 75.9% | 33.3% | 200K | $0.25 | $1.25 |
| GPT-4o mini OpenAI | 82% | 87.2% | 40.2% | 128K | $0.15 | $0.60 |
| Gemini 1.5 Flash Google | 78.9% | 74.3% | — | 1M | $0.075 | $0.30 |
基准测试得分和价格为参考值,变化频繁。来源:模型提供商文档、LMSYS 排行榜、官方基准测试论文。最后审核:2026年5月。