AI 术语词典

基准测试

用于比较 AI 模型能力的标准化测试

定义

基准测试是用于测量和比较 AI 模型性能的标准化测试或数据集。常见的基准测试包括 MMLU（知识）、HumanEval（编程）、GPQA（研究生水平推理）和 LMSYS Arena（直接用户偏好对比）。基准测试帮助用户客观地比较模型，但模型可能通过专门针对基准数据进行训练来"刷榜"。