首页/术语词典/基准测试

AI 术语词典

基准测试

用于比较 AI 模型能力的标准化测试

定义

基准测试是用于测量和比较 AI 模型性能的标准化测试或数据集。常见的基准测试包括 MMLU(知识)、HumanEval(编程)、GPQA(研究生水平推理)和 LMSYS Arena(直接用户偏好对比)。基准测试帮助用户客观地比较模型,但模型可能通过专门针对基准数据进行训练来"刷榜"。

相关术语

返回术语词典