UStackUStack
ElevenLabs Guardrails 2.0 icon

ElevenLabs Guardrails 2.0

Controles de segurança e comportamento configuráveis para ElevenAgents, orientam respostas de AI por voz e bloqueiam saídas inseguras ou fora da política.

ElevenLabs Guardrails 2.0

O que é ElevenLabs Guardrails 2.0?

ElevenLabs Guardrails 2.0 é uma camada de controle redesenhada no ElevenAgents para agentes de IA por voz que precisam de proteções de segurança e comportamento configuráveis antes que as respostas cheguem ao usuário final. É projetado para ajudar a manter os agentes alinhados à marca, no tópico e em conformidade em escala empresarial, guiando os agentes para saídas corretas e prevenindo respostas inseguras ou fora da política.

Como os agentes de IA são não determinísticos e podem desviar durante conversas longas — ou serem pressionados por entradas adversárias —, Guardrails 2.0 usa defesas em camadas. Ele combina endurecimento do prompt do sistema com verificações em tempo real nos inputs do usuário e respostas do agente, além de opções para como lidar com violações.

Principais Recursos

  • Endurecimento do prompt do sistema (Focus Guardrail): Define comportamentos permitidos e proibidos no prompt do sistema e reforça essas instruções ao longo da conversa para reduzir desvios fora do objetivo.
  • Validação de input do usuário (Manipulation Guardrails): Detecta tentativas de injeção de prompt e sobrescrita de instruções nas mensagens do usuário; quando um risco de segurança é detectado, pode encerrar a conversa.
  • Validação de resposta do agente (Policy enforcement): Avalia cada resposta do agente contra políticas configuradas em tempo real e pode bloquear respostas que violem as regras antes da entrega ao usuário.
  • Guardrails pré-construídos e personalizados: Inclui proteções pré-construídas para áreas de risco comuns e Custom Guardrails onde equipes definem políticas específicas do domínio em linguagem natural.
  • Comportamento de enforcement configurável: Suporta execution modes que equilibram latência vs. rigidez, exit strategies (encerrar, transferir, escalar para humano ou retry com instruções corretivas) e níveis de sensibilidade de conteúdo por categoria de conteúdo.
  • Visibilidade operacional e suporte a governança: Registra cada gatilho de guardrail nas análises de conversa (qual guardrail disparou e a ação tomada), e pode redigir informações sensíveis de transcrições, gravações e payloads de webhook após o fim da chamada.

Como Usar ElevenLabs Guardrails 2.0

  1. Defina o comportamento base no prompt do sistema usando instruções permitidas e proibidas que seu agente de voz deve seguir.
  2. Ative os guardrails em camadas para os dois pontos de verificação em tempo real: valide inputs do usuário quanto a tentativas de manipulação e valide saídas do agente contra suas políticas.
  3. Adicione Custom Guardrails escrevendo regras específicas do domínio em linguagem natural para as necessidades de risco e conformidade da sua aplicação.
  4. Escolha a configuração de enforcement: defina modos de execução de guardrail para equilibrar latência de resposta e rigidez, configure estratégias de saída para violações disparadas e ajuste níveis de sensibilidade de conteúdo para evitar bloqueios excessivos.
  5. Revise gatilhos registrados e refine políticas usando análises de conversa; opcionalmente ative redigação do histórico de conversa para remover conteúdo sensível de saídas armazenadas.

Casos de Uso

  • Agentes de suporte ao cliente por voz: Mantenha respostas no tópico e alinhadas às políticas internas durante chamadas longas de ida e volta, enquanto bloqueia respostas que violem regras configuradas.
  • Vendas e qualificação de leads: Reforce comportamento consistente e direcionado ao objetivo a partir do prompt do sistema e valide respostas em tempo real para prevenir orientações fora da mensagem.
  • Assistência em fluxos de trabalho internos: Proteja interações internas de alto impacto parando tentativas de injeção de prompt e sobrescrita de instruções que possam desviar o agente da tarefa.
  • Manipulação de conteúdo sensível à conformidade: Use Content Guardrails para filtrar categorias de conteúdo potencialmente sensíveis ou inseguras com limiares ajustáveis.
  • Enforcement de políticas específicas do domínio: Crie Custom Guardrails para codificar restrições de negócios ou regulatórias (em linguagem natural) e aplicá-las automaticamente em chamadas.

FAQ

O Guardrails 2.0 depende apenas de um prompt de sistema?
Não. Embora o endurecimento do prompt de sistema (com o Focus Guardrail) seja a base, o Guardrails 2.0 também adiciona verificações independentes em tempo real para manipulação de entrada do usuário e violações de política nas respostas do agente.

O que acontece quando um guardrail é acionado?
O Guardrails 2.0 pode executar ações configuradas, como encerrar a conversa, transferir para um agente diferente, escalar para um humano ou tentar novamente com instruções corretivas.

Os guardrails podem afetar a latência de voz?
Sim. O recurso inclui modos de execução que permitem às equipes escolherem um equilíbrio entre velocidade e rigor. Um modo executa os guardrails junto com a resposta (com a possibilidade de que uma fração de segundo de áudio seja reproduzida), enquanto outro modo retém as respostas até total liberação.

Como as violações de política são rastreadas?
Todo acionamento é registrado nas análises de conversa, incluindo qual guardrail foi disparado e qual ação foi tomada, ajudando as equipes a refinar seus prompts e guardrails ao longo do tempo.

Dados sensíveis podem ser removidos após uma chamada?
Sim. Após o fim de uma chamada, o Guardrails 2.0 pode redigir automaticamente informações sensíveis de transcrições, gravações e payloads de webhook, mantendo os dados necessários para análises, QA e treinamento.

Alternativas

  • Moderação manual e revisão pós-hoc: Em vez de bloquear ou redirecionar respostas em tempo real, as equipes podem analisar transcrições após as chamadas. Isso geralmente aumenta o risco de conteúdo inseguro chegar aos usuários e retarda os ciclos de feedback.
  • Controles apenas por prompt de camada única: Depender apenas de um prompt de sistema endurecido reduz a complexidade, mas não lida com não determinismo e entradas adversárias de usuários tão efetivamente quanto verificações em camadas.
  • Filtragem de conteúdo no lado da aplicação: Implementar filtros em fluxos de entrada e saída na aplicação chamadora. Isso pode alcançar objetivos de segurança semelhantes, embora você precise construir e manter a lógica de avaliação e registro por conta própria.
  • Classificadores de segurança de propósito geral sem orquestração de políticas: Usar modelos de moderação independentes para detecção de conteúdo pode ajudar na triagem de conteúdo inseguro, mas pode não fornecer a mesma abordagem unificada para validação de entrada, bloqueio de respostas, estratégias de saída e registro de análises descritas aqui.