首页/术语词典/人类反馈强化学习

AI 术语词典

人类反馈强化学习

AI 如何学会有用且安全

定义

RLHF 是用于使语言模型与人类偏好对齐的训练技术。人工评分员比较模型输出并排名,这些排名用于训练奖励模型,奖励模型再通过强化学习指导进一步微调。RLHF 是 ChatGPT 和 Claude 比原始预训练模型更自然、更安全的关键原因。

相关术语

相关工具

返回术语词典