UStackUStack
ElevenLabs Guardrails 2.0 icon

ElevenLabs Guardrails 2.0

ElevenLabs Guardrails 2.0 提供可設定的安全與行為控管,協助 ElevenAgents 指引語音 AI 回覆並阻擋不安全或不合規輸出。

ElevenLabs Guardrails 2.0

什麼是 ElevenLabs Guardrails 2.0?

ElevenLabs Guardrails 2.0 是 ElevenAgents 中重新設計的控制層,適用於需要可設定安全與行為保護的語音 AI 代理程式,在回應傳達至終端使用者前提供防護。它旨在透過引導代理程式產生正確輸出並防止不安全或不合規回應,協助企業規模的代理程式維持品牌一致、切合主題並符合規範。

由於 AI 代理程式具非確定性,可能在長對話中偏移,或受對抗性輸入影響,Guardrails 2.0 採用分層防禦。它結合系統提示強化,與使用者輸入及代理程式回應的即時檢查,並提供違規處理選項。

主要功能

  • 系統提示強化(Focus Guardrail): 在系統提示中定義允許與不允許行為,並在整個對話中強化這些指示,以減少偏離目標的偏移。
  • 使用者輸入驗證(Manipulation Guardrails): 偵測使用者訊息中的提示注入與指示覆寫嘗試;偵測到安全風險時,可終止對話。
  • 代理程式回應驗證(Policy enforcement): 即時評估每個代理程式回應是否符合設定政策,並在傳送給使用者前阻擋違規回應。
  • 預設與自訂守護欄: 包含常見風險領域的預設保護,以及 Custom Guardrails,讓團隊以自然語言定義領域特定政策。
  • 可設定執行行為: 支援 execution modes 以權衡延遲與嚴格度、exit strategies(結束、轉移、升級至人工或使用修正指示重試),以及各內容類別的 content sensitivity levels
  • 運營可見性與治理支援: 在對話分析中記錄每個守護欄觸發(觸發守護欄與採取動作),並可在通話結束後從記錄檔、錄音與 webhook 負載中 redact sensitive information

如何使用 ElevenLabs Guardrails 2.0

  1. 在系統提示中定義基準行為,使用語音代理程式應遵循的允許與不允許指示。
  2. 啟用分層守護欄,針對兩個即時檢查點:驗證使用者輸入是否為操縱嘗試,並驗證代理程式輸出是否符合政策。
  3. 新增 Custom Guardrails,以自然語言撰寫應用程式特定風險與合規需求的領域規則。
  4. 選擇執行設定:設定守護欄執行模式以平衡回應延遲與嚴格度、設定觸發違規的結束策略,並調整內容敏感度等級以避免過度阻擋。
  5. 檢視記錄觸發並精煉政策,使用對話分析;可選擇啟用對話歷史編輯以移除儲存輸出中的敏感內容。

使用案例

  • 客戶支援語音代理程式: 在長時間來回通話中維持回應切合主題並符合內部政策,同時阻擋違反設定的回應。
  • 銷售與潛在客戶資格篩選: 從系統提示強化一致、目標導向行為,並即時驗證回應以防止偏離訊息的指引。
  • 內部工作流程協助: 透過阻擋提示注入與指示覆寫嘗試,保護高影響內部互動,避免代理程式偏離任務。
  • 合規敏感內容處理: 使用 Content Guardrails 篩選潛在敏感或不安全內容類別,並具可調閾值。
  • 領域特定政策執行: 建立 Custom Guardrails 以自然語言編碼業務或法規限制,並自動跨通話執行。

常見問題

Guardrails 2.0 是否僅依賴系統提示?
否。雖然系統提示強化(搭配 Focus Guardrail)是基礎,Guardrails 2.0 還新增獨立的即時檢查,用於偵測使用者輸入操縱與代理回應政策違規。

觸發守護欄時會發生什麼?
Guardrails 2.0 可採取設定的動作,例如結束對話、轉移至不同代理、升級至人工,或以修正指示重試。

守護欄會影響語音延遲嗎?
會。此功能包含執行模式,讓團隊選擇速度與嚴格度之間的權衡。一種模式可在回應旁邊執行守護欄(可能有小部分音訊播放不到一秒),另一種模式則會保留回應直到完全通過檢查。

政策違規如何追蹤?
每個觸發皆記錄於對話分析中,包括觸發的守護欄與採取的動作,協助團隊隨時間精煉提示與守護欄。

通話後能否移除敏感資料?
可。通話結束後,Guardrails 2.0 可自動從逐字稿、錄音與 webhook 負載中刪除敏感資訊,同時保留分析、品管與訓練所需的資料。

替代方案

  • 手動審核與事後檢視: 而非即時阻擋或重新導向回應,團隊可在通話後分析逐字稿。這通常會增加不安全內容傳至使用者的風險,並延緩回饋迴圈。
  • 單層僅提示控管: 僅依賴強化系統提示可降低複雜度,但無法像多層檢查般有效處理非確定性與對抗性使用者輸入。
  • 應用程式端內容篩選: 在呼叫應用程式的輸入與輸出串流中實作篩選。這可達成類似安全目標,但您可能需自行建置與維護評估邏輯與記錄。
  • 無政策協調的通用安全分類器: 使用獨立審核模型進行內容偵測可協助篩選不安全內容,但可能無法提供本文所述的統一輸入驗證、回應阻擋、退出策略與分析記錄方法。