UStackUStack
ElevenLabs Guardrails 2.0 icon

ElevenLabs Guardrails 2.0

ElevenLabs Guardrails 2.0 为 ElevenAgents 提供可配置安全与行为控制,在语音 AI 回复到达终端前拦截不安全或不合规输出。

ElevenLabs Guardrails 2.0

什么是 ElevenLabs Guardrails 2.0?

ElevenLabs Guardrails 2.0 是 ElevenAgents 中为语音 AI 代理重新设计的控制层,适用于需要可配置安全和行为保护的代理,在回复到达终端用户前提供防护。它旨在通过引导代理生成正确输出并阻止不安全或不合规回复,帮助代理在企业规模下保持品牌一致、话题相关且合规。

由于 AI 代理具有非确定性,在长对话中可能漂移,或受对抗性输入影响,Guardrails 2.0 采用分层防御。它结合系统提示强化与用户输入及代理回复的实时检查,并提供违规处理选项。

主要功能

  • 系统提示强化(Focus Guardrail):在系统提示中定义允许和不允许的行为,并在整个对话中强化这些指令,以减少偏离目标的情况。
  • 用户输入验证(Manipulation Guardrails):检测用户消息中的提示注入和指令覆盖尝试;检测到安全风险时,可终止对话。
  • 代理回复验证(Policy enforcement):实时评估每个代理回复是否符合配置策略,并在发送给用户前阻止违规回复。
  • 预置和自定义防护栏:包含常见风险领域的预置保护,以及 Custom Guardrails,团队可使用自然语言定义领域特定策略。
  • 可配置执行行为:支持 execution modes 以权衡延迟与严格度、exit strategies(结束、转移、升级至人工或使用修正指令重试),以及按内容类别设置 content sensitivity levels
  • 运营可见性和治理支持:在对话分析中记录每个防护栏触发(哪个防护栏触发及采取的操作),并可在通话结束后从记录、录音和 webhook 数据包中 redact sensitive information

如何使用 ElevenLabs Guardrails 2.0

  1. 在系统提示中定义基准行为,使用语音代理应遵循的允许和不允许指令。
  2. 启用分层防护栏,针对两个实时检查点:验证用户输入中的操纵尝试,并验证代理输出是否符合您的策略。
  3. 添加 Custom Guardrails,使用自然语言编写应用特定风险和合规需求的领域规则。
  4. 选择执行配置:设置防护栏执行模式以平衡回复延迟和严格度,配置触发违规的退出策略,并调整内容敏感度级别以避免过度阻挡。
  5. 使用对话分析审查记录触发并优化策略;可选启用对话历史删敏,从存储输出中移除敏感内容。

使用场景

  • 客户支持语音代理:在长回合通话中保持回复话题相关并符合内部策略,同时阻止违规回复。
  • 销售和潜在客户筛选:从系统提示强化一致、目标导向行为,并实时验证回复以防止偏离信息指导。
  • 内部工作流协助:通过阻止提示注入和指令覆盖尝试,保护高影响内部交互,避免代理偏离任务。
  • 合规敏感内容处理:使用 Content Guardrails 筛选潜在敏感或不安全内容类别,并支持可调阈值。
  • 领域特定策略执行:创建 Custom Guardrails 以自然语言编码业务或监管约束,并在通话中自动执行。

常见问题

Guardrails 2.0 是否仅依赖系统提示?

否。虽然系统提示强化(结合 Focus Guardrail)是基础,但 Guardrails 2.0 还添加了独立的实时检查,用于检测用户输入操纵和代理响应策略违规。

触发防护栏时会发生什么?

Guardrails 2.0 可执行配置的操作,例如结束对话、转接至其他代理、升级至人工,或使用修正指令重试。

防护栏会影响语音延迟吗?

会。该功能包含执行模式,让团队在速度与严格性之间选择权衡。其中一种模式可在响应生成的同时运行防护栏(可能有几分之一秒的音频播放),另一种模式则会等待完全通过后再释放响应。

策略违规如何追踪?

每次触发都会记录在对话分析中,包括触发了哪个防护栏以及采取了何种操作,帮助团队随着时间优化提示和防护栏。

通话后能否移除敏感数据?

可以。通话结束后,Guardrails 2.0 可自动从转录、录音和 webhook 负载中删除敏感信息,同时保留分析、QA 和训练所需的数据。

替代方案

  • 手动审核和事后审查: 而非实时阻挡或重定向响应,团队可在通话后分析转录。这通常会增加不安全内容到达用户风险,并减慢反馈循环。
  • 单层仅提示控制: 仅依赖强化系统提示可降低复杂性,但无法像分层检查那样有效应对非确定性和对抗性用户输入。
  • 应用侧内容过滤: 在调用应用中对输入输出流实施过滤。这可实现类似安全目标,但您可能需自行构建和维护评估逻辑及日志记录。
  • 无策略编排的通用安全分类器: 使用独立审核模型进行内容检测有助于筛选不安全内容,但可能无法提供此处描述的统一输入验证、响应阻挡、退出策略和分析日志方法。