ClawdTalk
Donnez une voix à votre Clawdbot : appels à double sens avec speech-to-text, transcriptions et text-to-speech, avec protection PIN optionnelle.
Qu'est-ce que ClawdTalk ?
ClawdTalk est une couche d'appels vocaux pour votre « Clawdbot » (OpenClaw) existant qui permet à un bot de gérer des appels téléphoniques au lieu de seulement du texte. Votre bot continue de recevoir et d'envoyer des messages structurés, tandis que ClawdTalk ajoute speech-to-text, text-to-speech et appels bidirectionnels pour que les appelants puissent parler et entendre des réponses vocales.
L'objectif principal est de connecter votre bot à de vrais appels téléphoniques : vous installez la compétence, vérifiez un numéro, puis appelez votre Clawdbot comme une ligne téléphonique. Les appels peuvent inclure une protection par PIN, et le système utilise une connexion WebSocket sortante persistante plutôt qu'une passerelle publiquement exposée.
Fonctionnalités principales
- Appels bidirectionnels (bot vers téléphone et téléphone vers bot) : Appelez votre bot depuis un numéro de téléphone ou demandez-lui « appelle-moi » ; les deux sens fonctionnent dès le départ.
- Speech-to-text avec transcriptions : La parole de l'appelant est transcrite et la transcription sert d'entrée texte au bot.
- Text-to-speech naturel (Telnyx NaturalHD) : La sortie vocale est générée avec un text-to-speech « naturel » (voix Telnyx), pour un audio clair et humain.
- Protection PIN côté serveur : Définissez un PIN pour rejeter les appels sans le PIN requis ; la validation de l'appelant est appliquée côté serveur.
- Connexion privée via WebSocket : ClawdTalk utilise une connexion WebSocket sortante persistante pour que votre bot n'ait pas besoin d'une passerelle publiquement exposée ; elle fonctionne derrière NAT et pare-feu.
- Support voix HD : Les appels vers le bot supportent la Voix HD avec un codec AMR-WB (qualité large bande).
Comment utiliser ClawdTalk
- Connectez votre Clawdbot (OpenClaw). ClawdTalk se positionne comme la couche vocale qui s'ajoute à votre bot.
- Installez la compétence ClawdTalk et vérifiez votre numéro (décrit comme partie de la configuration).
- (Recommandé) Configurez la protection PIN. Lors de l'inscription, vous définissez le PIN et les règles d'accès aux appels.
- Commencez à appeler votre bot. Utilisez le numéro fourni pour appeler votre Clawdbot, ou déclenchez un flux « appelle-moi » via votre bot.
- Observez les transcriptions d'appels et réponses du bot. Le bot reçoit les événements d'appel (y compris le texte de l'appelant) et renvoie une réponse texte qui est parlée à l'appelant.
Cas d'usage
- Appels DevOps / réponse aux incidents : Un bot peut traduire une commande d'un appelant en action (ex. : « revenir à la dernière version stable et notifier l'équipe ») puis lire le résultat dans le même appel.
- Rappels et recherche d'infos d'assistant personnel : Les utilisateurs demandent des données temporelles ou personnelles (ex. : lire un calendrier ou score de sommeil) et reçoivent un résumé vocal.
- Assistance achats et caisse : Appelez votre bot pour ajouter des articles à une commande de courses et confirmer totaux ou horaires de livraison.
- Contrôle maison intelligente : Demandez au bot de régler le thermostat, allumer/éteindre les lumières et verrouiller les portes ; le bot répond par confirmations.
- Flux d'équipe sur plusieurs outils de chat : Le site oppose « sans » ClawdTalk (messages dispersés sur plusieurs apps) à un flux d'appel unique livrant une réponse structurée.
FAQ
Que ClawdTalk ajoute-t-il à mon bot ? ClawdTalk ajoute des capacités d'appels vocaux — speech-to-text, text-to-speech et appels téléphoniques bidirectionnels — tandis que votre bot gère toujours les interactions texte sous-jacentes.
Dois-je exposer mon bot sur Internet public ? Le site décrit l'utilisation d'une connexion WebSocket sortante persistante pour garder le bot privé et éviter une passerelle publiquement exposée.
Les appels peuvent-ils être limités aux appelants autorisés ? Oui. ClawdTalk supporte la protection PIN, avec application côté serveur pour rejeter les appels sans PIN requis.
Les appelants reçoivent-ils des transcriptions ? Le flux d'appel décrit inclut la lecture de la transcription et son utilisation comme entrée du bot ; des « transcriptions complètes » sont mentionnées dans les détails du plan.
Y a-t-il une option pour mon propre numéro de téléphone ? La section tarification indique que vous pouvez « commander votre propre numéro », bien que la disponibilité exacte dépende du plan choisi.
Alternatives
- Frameworks de bots textuels uniquement (sans intégration téléphonique) : Si votre objectif est principalement l’automatisation basée sur le chat (p. ex., bots de type Slack/Telegram), les plateformes textuelles uniquement évitent la téléphonie et se concentrent sur les flux de travail pilotés par messages.
- Passerelles vocales Call/SIP vers webhook : Au lieu d’une couche vocale dédiée pour « bot », les équipes peuvent router les appels entrants/sortants vers des webhooks ou serveurs d’applications, puis implémenter elles-mêmes la transcription et le TTS.
- API Speech-to-text + text-to-speech combinées avec téléphonie : Une autre approche consiste à construire une application d’appels téléphoniques personnalisée en utilisant des STT/TTS séparés et un fournisseur de téléphonie, offrant de la flexibilité mais nécessitant plus d’intégration.
- Automatisation vocale unifiée pour centres de contact : Pour les organisations cherchant des fonctionnalités plus larges de centre d’appels (routage, reporting, assistance agent), les outils d’automatisation de centres de contact peuvent proposer des flux vocaux au-delà d’une intégration « voix de bot » centrée sur le développeur.
Alternatives
Lemon
Lemon, agent IA convertissant la voix en tâches. Gérez messages, recherches et délégations sans changer d'appli. Augmentez votre productivité.
OpenAI Realtime API
Créez des expériences vocales temps réel et multimodales à faible latence avec l’OpenAI Realtime API : agents voix navigateur et transcription temps réel.
MiniCPM-o 4.5
MiniCPM-o 4.5 est un modèle d'IA multimodal hautement performant, conçu pour la vision, la parole et la diffusion en direct en duplex intégral, offrant une compréhension visuelle avancée, une synthèse vocale et des capacités interactives en temps réel dans une architecture compacte de 9 milliards de paramètres.
PXZ AI
Une plateforme IA tout-en-un qui combine des outils pour l'image, la vidéo, la voix, l'écriture et le chat afin d'améliorer la créativité et la collaboration.
Gemma AI
Gemma AI est une application intelligente qui vous appelle directement avec des rappels vocaux personnalisés et intelligents pour vous assurer de ne jamais manquer de tâches importantes, de rendez-vous ou d'échéances.
CAMB.AI
Transformez un seul live en diffusion multilingue avec un doublage audio IA en temps réel pour YouTube, Twitch, X et plus.