人类反馈强化学习

AI 如何学会有用且安全

定义

RLHF 是用于使语言模型与人类偏好对齐的训练技术。人工评分员比较模型输出并排名，这些排名用于训练奖励模型，奖励模型再通过强化学习指导进一步微调。RLHF 是 ChatGPT 和 Claude 比原始预训练模型更自然、更安全的关键原因。