什么是 ElevenLabs Guardrails 2.0?
ElevenLabs Guardrails 2.0 是 ElevenAgents 中为语音 AI 代理重新设计的控制层,适用于需要可配置安全和行为保护的代理,在回复到达终端用户前提供防护。它旨在通过引导代理生成正确输出并阻止不安全或不合规回复,帮助代理在企业规模下保持品牌一致、话题相关且合规。
由于 AI 代理具有非确定性,在长对话中可能漂移,或受对抗性输入影响,Guardrails 2.0 采用分层防御。它结合系统提示强化与用户输入及代理回复的实时检查,并提供违规处理选项。
主要功能
- 系统提示强化(Focus Guardrail):在系统提示中定义允许和不允许的行为,并在整个对话中强化这些指令,以减少偏离目标的情况。
- 用户输入验证(Manipulation Guardrails):检测用户消息中的提示注入和指令覆盖尝试;检测到安全风险时,可终止对话。
- 代理回复验证(Policy enforcement):实时评估每个代理回复是否符合配置策略,并在发送给用户前阻止违规回复。
- 预置和自定义防护栏:包含常见风险领域的预置保护,以及 Custom Guardrails,团队可使用自然语言定义领域特定策略。
- 可配置执行行为:支持 execution modes 以权衡延迟与严格度、exit strategies(结束、转移、升级至人工或使用修正指令重试),以及按内容类别设置 content sensitivity levels。
- 运营可见性和治理支持:在对话分析中记录每个防护栏触发(哪个防护栏触发及采取的操作),并可在通话结束后从记录、录音和 webhook 数据包中 redact sensitive information。
如何使用 ElevenLabs Guardrails 2.0
- 在系统提示中定义基准行为,使用语音代理应遵循的允许和不允许指令。
- 启用分层防护栏,针对两个实时检查点:验证用户输入中的操纵尝试,并验证代理输出是否符合您的策略。
- 添加 Custom Guardrails,使用自然语言编写应用特定风险和合规需求的领域规则。
- 选择执行配置:设置防护栏执行模式以平衡回复延迟和严格度,配置触发违规的退出策略,并调整内容敏感度级别以避免过度阻挡。
- 使用对话分析审查记录触发并优化策略;可选启用对话历史删敏,从存储输出中移除敏感内容。
使用场景
- 客户支持语音代理:在长回合通话中保持回复话题相关并符合内部策略,同时阻止违规回复。
- 销售和潜在客户筛选:从系统提示强化一致、目标导向行为,并实时验证回复以防止偏离信息指导。
- 内部工作流协助:通过阻止提示注入和指令覆盖尝试,保护高影响内部交互,避免代理偏离任务。
- 合规敏感内容处理:使用 Content Guardrails 筛选潜在敏感或不安全内容类别,并支持可调阈值。
- 领域特定策略执行:创建 Custom Guardrails 以自然语言编码业务或监管约束,并在通话中自动执行。
常见问题
Guardrails 2.0 是否仅依赖系统提示?
否。虽然系统提示强化(结合 Focus Guardrail)是基础,但 Guardrails 2.0 还添加了独立的实时检查,用于检测用户输入操纵和代理响应策略违规。
触发防护栏时会发生什么?
Guardrails 2.0 可执行配置的操作,例如结束对话、转接至其他代理、升级至人工,或使用修正指令重试。
防护栏会影响语音延迟吗?
会。该功能包含执行模式,让团队在速度与严格性之间选择权衡。其中一种模式可在响应生成的同时运行防护栏(可能有几分之一秒的音频播放),另一种模式则会等待完全通过后再释放响应。
策略违规如何追踪?
每次触发都会记录在对话分析中,包括触发了哪个防护栏以及采取了何种操作,帮助团队随着时间优化提示和防护栏。
通话后能否移除敏感数据?
可以。通话结束后,Guardrails 2.0 可自动从转录、录音和 webhook 负载中删除敏感信息,同时保留分析、QA 和训练所需的数据。
替代方案
- 手动审核和事后审查: 而非实时阻挡或重定向响应,团队可在通话后分析转录。这通常会增加不安全内容到达用户风险,并减慢反馈循环。
- 单层仅提示控制: 仅依赖强化系统提示可降低复杂性,但无法像分层检查那样有效应对非确定性和对抗性用户输入。
- 应用侧内容过滤: 在调用应用中对输入输出流实施过滤。这可实现类似安全目标,但您可能需自行构建和维护评估逻辑及日志记录。
- 无策略编排的通用安全分类器: 使用独立审核模型进行内容检测有助于筛选不安全内容,但可能无法提供此处描述的统一输入验证、响应阻挡、退出策略和分析日志方法。
替代品
Codex Plugins
使用 Codex Plugins 将技能、应用集成和 MCP 服务器打包成可复用工作流,扩展 Codex 访问 Gmail、Google Drive 与 Slack 等工具。
PXZ AI
一个集成图像、视频、语音、写作和聊天工具的全能AI平台,以增强创造力和协作。
Gemma AI
Gemma AI 是一款智能应用程序,它会直接通过个性化的智能语音提醒来呼叫您,确保您不会错过重要的任务、约会或截止日期。
CAMB.AI
把单一直播转成多语言广播:实时AI音频配音,多语言输出到 YouTube、Twitch、X 等目的地。
AakarDev AI
AakarDev AI 是一个强大的平台,通过无缝的向量数据库集成简化 AI 应用程序的开发,实现快速部署和可扩展性。
AgentMail
AgentMail 是面向 AI 代理的邮箱收发 API,可通过 REST 创建、发送、接收与搜索邮件,实现双向对话。