输入内容以搜索工具。使用上下方向键在联想项之间移动,回车执行搜索,Tab 打开高亮项,Escape 关闭面板。
AI 术语词典
通过试错和奖励信号学习的 AI
强化学习(RL)是一种机器学习范式,AI 智能体通过与环境交互并根据其行动获得奖励或惩罚信号来学习。它在游戏竞技(AlphaGo、OpenAI Five)和机器人技术方面取得了突破。在 LLM 的背景下,RL 用于 RLHF 以使模型与人类偏好对齐。