UStackUStack
Cekura icon

Cekura

Cekura offre des tests de bout en bout et l’observabilité pour les agents IA vocaux et conversationnels : simulations préproduction et suivi en production.

Cekura

Qu’est-ce que Cekura ?

Cekura est un outil de tests de bout en bout et d’observabilité pour les agents IA conversationnels, y compris les systèmes vocaux et de chat. Son objectif principal est d’aider les équipes à valider le comportement de leurs agents dans divers scénarios conversationnels avant la mise en production, puis à surveiller les conversations réelles en production.

La plateforme prend en charge les simulations préproduction (pour tester le suivi des instructions, les appels d’outils et la qualité conversationnelle) et le suivi en production (pour inspecter les appels et identifier les problèmes comme les vérifications manquantes ou les échecs dans les flux attendus).

Fonctionnalités principales

  • Simulation de scénarios pour agents vocaux et de chat : exécutez des tests préproduction sur de grands ensembles de scénarios pour valider le comportement des agents dans différentes conditions d’utilisateur et de conversation.
  • Tests basés sur des personas et personnalités : utilisez des personas prédéfinies (p. ex. accents variés, genres et dispositions d’utilisateur) pour évaluer si l’agent répond de manière appropriée dans divers styles conversationnels.
  • Appels parallèles et évaluation actionable : exécutez des simulations et générez des résultats d’évaluation en quelques minutes pour identifier les problèmes liés aux flux utilisateur principaux.
  • Relecture de conversations problématiques connues : relancez des motifs de conversation précédemment problématiques pour éviter les échecs récurrents lors des changements de prompts ou de logique d’agent.
  • Observabilité avec insights en temps réel et logs : surveillez les conversations en production avec des logs détaillés et une analyse des tendances pour évaluer le suivi des instructions, les appels d’outils et la qualité conversationnelle globale.
  • Alertes pour erreurs et baisses de performance : envoyez des notifications instantanées en cas d’échecs ou de régressions de performance pour une réponse rapide des équipes.

Comment utiliser Cekura

  1. Commencez par créer ou sélectionner des scénarios correspondant aux workflows de votre agent (y compris les flux standards et les cas limites). Cekura dispose d’une bibliothèque intégrée de milliers de scénarios ou vous pouvez en créer des personnalisés.
  2. Lancez des simulations préproduction en utilisant des personas pour tester les performances de l’agent avec différents types d’utilisateurs (p. ex. confus, interrompus ou hors-script).
  3. Examinez les résultats d’évaluation pour les problèmes affectant les tâches principales (comme les annulations, reprogrammations ou suivis) et utilisez les relectures pour retester les points problématiques connus après des changements de prompts ou de comportement.
  4. Déployez le suivi en production pour observer les conversations réelles, inspecter les logs et utiliser les alertes pour détecter les échecs, vérifications manquantes ou baisses de performance.

Cas d’usage

  • Tests de régression pour changements de prompts sur les flux de rendez-vous : quand un « nouveau prompt casse l’annulation de rendez-vous », utilisez des simulations pour voir comment les changements impactent les annulations, reprogrammations et tâches de suivi associées.
  • Gestion des interruptions et utilisateurs hors-script : évaluez si l’agent peut gérer les comportements impatients ou interrompus tout en suivant les consignes prévues.
  • Validation des vérifications de conformité et disclaimers : testez les flux clés pour détecter les étapes de conformité manquantes (p. ex. s’assurer que les disclaimers ou vérifications requis ne sont pas sautés).
  • Dépannage des échecs conversationnels récurrents : relecture d’une « ancienne conversation qui pose toujours problème » pour identifier la cause de l’échec et confirmer les correctifs après mises à jour.
  • Suivi en production pour suivi des instructions et appels d’outils : surveillez chaque appel pour vérifier si l’agent suit correctement les instructions et effectue les appels d’outils attendus, puis suivez les tendances dans le temps.

FAQ

  • Cekura teste-t-il uniquement en préproduction, ou surveille-t-il aussi la production ? Cekura prend en charge les deux : simulations préproduction pour l’évaluation et suivi en production pour une observabilité continue.

  • Quels types d’évaluations Cekura effectue-t-il ? Le site décrit l’évaluation du suivi des instructions, des appels d’outils et de la qualité conversationnelle, avec des exemples de vérifications incluant des scores d’empathie/réactivité et la détection de vérifications de conformité sautées.

  • Puis-je tester différents types d’utilisateurs et styles conversationnels ? Oui. Cekura inclut des tests basés sur des personas (p. ex. accents variés et dispositions d’utilisateur) et prend en charge des scénarios personnalisés.

  • Comment Cekura aide-t-il lors des changements de prompts ou de comportement d’agent ? Il permet une resimulation rapide des flux utilisateur principaux et une relecture des conversations problématiques connues pour évaluer l’impact des changements de prompts sur les résultats.

  • Comment les problèmes sont-ils communiqués à l’équipe ? La plateforme inclut des notifications/alertes instantanées pour erreurs, échecs et baisses de performance, accompagnées de logs et d’analyse des tendances.

Alternatives

  • Frameworks autonomes de test LLM/agents : outils axés sur l’exécution et l’évaluation des cas de test (souvent sans observabilité conversationnelle complète). Ils conviennent mieux si vous avez déjà une surveillance ailleurs.
  • Plateformes d’analyse et de surveillance conversationnelle : solutions centrées sur l’analyse des conversations en production (tableaux de bord, logs, tendances), mais sans workflow structuré de simulation préproduction par persona.
  • Outils QA et analyse de tickets de support client : systèmes analysant les interactions de support a posteriori ; utiles pour l’examen et les rapports, mais sans simulation de bout en bout pour le suivi d’instructions et les appels d’outils.
  • Tests de workflows d’agents avec scripts personnalisés : création de votre propre infrastructure pour les exécutions de scénarios et le scoring. Flexible, mais demande plus d’efforts en ingénierie pour les simulations par persona, relectures et alertes.
Cekura | UStack