输入内容以搜索工具。使用上下方向键在联想项之间移动,回车执行搜索,Tab 打开高亮项,Escape 关闭面板。
AI 术语词典
用于比较 AI 模型能力的标准化测试
基准测试是用于测量和比较 AI 模型性能的标准化测试或数据集。常见的基准测试包括 MMLU(知识)、HumanEval(编程)、GPQA(研究生水平推理)和 LMSYS Arena(直接用户偏好对比)。基准测试帮助用户客观地比较模型,但模型可能通过专门针对基准数据进行训练来"刷榜"。