安全护栏

防止 AI 产生有害输出的规则和过滤器

定义

安全护栏是应用于 AI 系统的安全机制，用于防止产生有害、不当或跑题的输出。它们可以通过微调（宪法 AI、RLHF）、系统提示词或生成后过滤来实现。所有主要 AI API 都内置了安全护栏，企业部署通常会为其特定用例添加自定义护栏。