ElevenLabs Guardrails 2.0
Contrôles de sécurité et de comportement configurables pour ElevenAgents : guident les réponses vocales de l’IA et bloquent les sorties dangereuses ou hors politique.
Qu’est-ce qu’ElevenLabs Guardrails 2.0 ?
ElevenLabs Guardrails 2.0 est une couche de contrôle repensée dans ElevenAgents pour les agents IA vocaux nécessitant des protections de sécurité et de comportement configurables avant que les réponses n’atteignent l’utilisateur final. Elle est conçue pour aider à maintenir les agents conformes à la marque, au sujet et aux normes à l’échelle entreprise, en guidant les agents vers des sorties correctes et en empêchant les réponses dangereuses ou hors politique.
Les agents IA étant non déterministes, ils peuvent dériver pendant les longues conversations — ou être poussés par des entrées adverses — Guardrails 2.0 utilise des défenses multicouches. Elle combine le renforcement des invites système avec des vérifications en temps réel des entrées utilisateur et des réponses des agents, plus des options pour la gestion des violations.
Fonctionnalités principales
- Renforcement des invites système (Focus Guardrail) : Définit les comportements autorisés et interdits dans l’invite système et renforce ces instructions tout au long de la conversation pour réduire les dérives hors objectif.
- Validation des entrées utilisateur (Manipulation Guardrails) : Détecte les injections de prompts et tentatives de surcharge d’instructions dans les messages utilisateur ; en cas de risque de sécurité détecté, elle peut terminer la conversation.
- Validation des réponses des agents (Application des politiques) : Évalue chaque réponse de l’agent par rapport aux politiques configurées en temps réel et peut bloquer les réponses violant les règles avant leur envoi à l’utilisateur.
- Guardrails prédéfinis et personnalisés : Inclut des protections prédéfinies pour les zones de risque courantes et Custom Guardrails où les équipes définissent des politiques spécifiques au domaine en langage naturel.
- Comportement d’application configurable : Prend en charge des modes d’exécution qui arbitrent latence vs. sévérité, des stratégies de sortie (fin, transfert, escalade vers un humain ou reprise avec instructions correctives), et des niveaux de sensibilité de contenu par catégorie de contenu.
- Visibilité opérationnelle et support de gouvernance : Journalise chaque déclenchement de guardrail dans les analyses de conversation (quel guardrail s’est déclenché et l’action prise), et peut anonymiser les informations sensibles des transcriptions, enregistrements et charges webhook après la fin de l’appel.
Comment utiliser ElevenLabs Guardrails 2.0
- Définir le comportement de base dans l’invite système en utilisant les instructions autorisées et interdites que votre agent vocal doit suivre.
- Activer les guardrails multicouches pour les deux points de contrôle en temps réel : valider les entrées utilisateur contre les tentatives de manipulation et valider les sorties des agents par rapport à vos politiques.
- Ajouter des Custom Guardrails en écrivant des règles spécifiques au domaine en langage naturel pour les besoins de risque et de conformité de votre application.
- Choisir la configuration d’application : définir les modes d’exécution des guardrails pour équilibrer latence de réponse et sévérité, configurer les stratégies de sortie pour les violations déclenchées, et ajuster les niveaux de sensibilité de contenu pour éviter le sur-blocage.
- Examiner les déclenchements journalisés et affiner les politiques à l’aide des analyses de conversation ; activer optionnellement l’anonymisation de l’historique pour supprimer le contenu sensible des sorties stockées.
Cas d’usage
- Agents vocaux de support client : Maintenir les réponses sur le sujet et alignées sur les politiques internes pendant les longs échanges, tout en bloquant les réponses violant les règles configurées.
- Ventes et qualification de leads : Renforcer un comportement cohérent et orienté objectif depuis l’invite système et valider les réponses en temps réel pour prévenir les guidages hors message.
- Assistance aux workflows internes : Protéger les interactions internes critiques en stoppant les tentatives d’injection de prompt et de surcharge d’instructions qui pourraient détourner l’agent de sa tâche.
- Gestion de contenu sensible à la conformité : Utiliser les Content Guardrails pour filtrer les catégories de contenu potentiellement sensibles ou dangereux avec des seuils ajustables.
- Application de politiques spécifiques au domaine : Créer des Custom Guardrails pour coder des contraintes métier ou réglementaires (en langage naturel) et les appliquer automatiquement sur les appels.
FAQ
Guardrails 2.0 repose-t-il uniquement sur un prompt système ? Non. Bien que le durcissement du prompt système (avec le Focus Guardrail) soit la base, Guardrails 2.0 ajoute également des vérifications indépendantes en temps réel pour la manipulation des entrées utilisateur et les violations de politique des réponses de l’agent.
Que se passe-t-il quand un guardrail est déclenché ? Guardrails 2.0 peut exécuter des actions configurées telles que terminer la conversation, transférer à un autre agent, escalader vers un humain ou réessayer avec des instructions correctives.
Les guardrails peuvent-ils affecter la latence vocale ? Oui. La fonctionnalité inclut des modes d’exécution qui permettent aux équipes de choisir un compromis entre vitesse et rigueur. Un mode peut exécuter les guardrails en parallèle de la réponse (avec la possibilité qu’une fraction de seconde d’audio soit jouée), tandis qu’un autre mode peut retenir les réponses jusqu’à validation complète.
Comment les violations de politique sont-elles suivies ? Chaque déclenchement est journalisé dans les analyses de conversation, y compris quel guardrail s’est activé et quelle action a été prise, aidant les équipes à affiner leurs prompts et guardrails au fil du temps.
Les données sensibles peuvent-elles être supprimées après un appel ? Oui. À la fin d’un appel, Guardrails 2.0 peut automatiquement masquer les informations sensibles des transcriptions, enregistrements et payloads webhook tout en conservant les données nécessaires aux analyses, au contrôle qualité et à l’entraînement.
Alternatives
- Modération manuelle et revue post-hoc : Au lieu de bloquer ou rediriger les réponses en temps réel, les équipes peuvent analyser les transcriptions après les appels. Cela augmente généralement le risque que du contenu dangereux atteigne les utilisateurs et ralentit les boucles de rétroaction.
- Contrôles à couche unique basés uniquement sur le prompt : S’appuyer uniquement sur un prompt système durci réduit la complexité mais ne traite pas aussi efficacement le non-déterminisme et les entrées utilisateur adverses que des vérifications multicouches.
- Filtrage de contenu côté application : Implémenter des filtres sur les flux d’entrée et de sortie dans l’application appelante. Cela peut atteindre des objectifs de sécurité similaires, bien que vous deviez construire et maintenir vous-même la logique d’évaluation et de journalisation.
- Classificateurs de sécurité généralistes sans orchestration de politique : Utiliser des modèles de modération autonomes pour la détection de contenu peut aider au filtrage de contenu dangereux, mais ne fournit pas la même approche unifiée pour la validation d’entrée, le blocage de réponse, les stratégies de sortie et le journal des analyses décrites ici.
Alternatives
Codex Plugins
Utilisez Codex Plugins pour regrouper des skills, intégrations d’app et serveurs MCP en workflows réutilisables afin d’étendre l’accès à Gmail, Google Drive et Slack.
PXZ AI
Une plateforme IA tout-en-un qui combine des outils pour l'image, la vidéo, la voix, l'écriture et le chat afin d'améliorer la créativité et la collaboration.
Gemma AI
Gemma AI est une application intelligente qui vous appelle directement avec des rappels vocaux personnalisés et intelligents pour vous assurer de ne jamais manquer de tâches importantes, de rendez-vous ou d'échéances.
CAMB.AI
Transformez un seul live en diffusion multilingue avec un doublage audio IA en temps réel pour YouTube, Twitch, X et plus.
AakarDev AI
AakarDev AI est une plateforme puissante qui simplifie le développement d'applications d'IA avec une intégration fluide des bases de données vectorielles, permettant un déploiement rapide et une évolutivité.
AgentMail
AgentMail est une API de boîte e-mail pour agents IA : créez, envoyez, recevez et recherchez des emails via REST pour des conversations à double sens.