AI 术语词典

强化学习

通过试错和奖励信号学习的 AI

定义

强化学习（RL）是一种机器学习范式，AI 智能体通过与环境交互并根据其行动获得奖励或惩罚信号来学习。它在游戏竞技（AlphaGo、OpenAI Five）和机器人技术方面取得了突破。在 LLM 的背景下，RL 用于 RLHF 以使模型与人类偏好对齐。