ClawdTalk
Dale voz al Clawdbot: ClawdTalk añade llamadas bidireccionales con speech-to-text, transcripciones y texto a voz, con PIN opcional.
¿Qué es ClawdTalk?
ClawdTalk es una capa de llamadas de voz para tu “Clawdbot” (OpenClaw) existente que permite que un bot maneje llamadas telefónicas en lugar de solo texto. Tu bot sigue recibiendo y enviando mensajes estructurados, mientras ClawdTalk añade speech-to-text, text-to-speech y llamadas bidireccionales para que los llamantes puedan hablar y escuchar respuestas habladas.
El propósito principal es conectar tu bot a llamadas telefónicas reales: instalas la skill, verificas un número y luego llamas a tu Clawdbot como una línea telefónica. Las llamadas pueden incluir protección con PIN, y el sistema usa una conexión WebSocket saliente persistente en lugar de requerir un gateway expuesto públicamente.
Características clave
- Llamadas bidireccionales (bot-a-teléfono y teléfono-a-bot): Llama a tu bot desde un número de teléfono o pídele a tu bot “llámame”; ambas direcciones funcionan de inmediato.
- Speech-to-text con transcripciones: El habla del llamante se transcribe y la transcripción se usa como entrada de texto para el bot.
- Text-to-speech de sonido natural (Telnyx NaturalHD): La salida de voz se genera con text-to-speech de “sonido natural” (voces Telnyx), buscando audio claro y similar al humano.
- Protección con PIN del lado del servidor: Establece un PIN para rechazar llamadas que no presenten el PIN requerido; la validación del llamante se aplica en el servidor.
- Conexión privada basada en WebSocket: ClawdTalk usa una conexión WebSocket saliente persistente para que tu bot no necesite un gateway expuesto públicamente; está diseñado para funcionar detrás de NAT y firewalls.
- Soporte para voz HD: Las llamadas al bot admiten HD Voice con códec AMR-WB (calidad de banda ancha).
Cómo usar ClawdTalk
- Conecta tu Clawdbot (OpenClaw). ClawdTalk se posiciona como la capa de voz que se integra junto a tu bot.
- Instala la skill de ClawdTalk y verifica tu número (parte del proceso de configuración).
- (Recomendado) Configura protección con PIN. Durante el registro, estableces el PIN y defines reglas de acceso a llamadas.
- Empieza a llamar a tu bot. Usa el número de teléfono proporcionado para llamar a tu Clawdbot, o activa un flujo de “llámame” desde tu bot.
- Observa transcripciones de llamadas y respuestas del bot. El bot recibe eventos de llamada (incluyendo el texto del llamante) y envía una respuesta de texto que se reproduce al llamante.
Casos de uso
- Llamadas de DevOps / respuesta a incidentes: Un bot puede traducir un comando del llamante en una acción (p. ej., “revertir a la última versión estable y notificar al equipo”) y leer el resultado en la misma llamada.
- Recordatorios y búsqueda de información de asistente personal: Los usuarios pueden pedir datos basados en tiempo o personales (p. ej., leer calendario o puntuación de sueño) y recibir un resumen hablado.
- Asistencia en compras y checkout: Llama a tu bot para añadir ítems a un pedido de comestibles y confirmar totales o horarios de entrega.
- Control de hogar inteligente: Pide al bot que ajuste objetivos del termostato, encienda/apague luces y cierre puertas; el bot responde con confirmaciones.
- Flujos de equipo que abarcan múltiples herramientas de chat: El sitio contrasta “sin” ClawdTalk (mensajes dispersos en varias apps) con un flujo de llamada único que entrega una respuesta estructurada.
Preguntas frecuentes
¿Qué añade ClawdTalk a mi bot? ClawdTalk añade capacidades de llamadas de voz —speech-to-text, text-to-speech y llamadas telefónicas bidireccionales— mientras tu bot sigue manejando las interacciones de texto subyacentes.
¿Necesito exponer mi bot a internet público? El sitio describe el uso de una conexión WebSocket saliente persistente para mantener el bot privado y evitar un gateway expuesto públicamente.
¿Pueden restringirse las llamadas a llamantes autorizados? Sí. ClawdTalk soporta protección con PIN, con aplicación en el servidor para rechazar llamadas sin el PIN requerido.
¿Reciben los llamantes transcripciones? El flujo de llamada descrito incluye leer la transcripción y usarla como entrada del bot; se mencionan “transcripciones completas” en los detalles del plan.
¿Hay opción para mi propio número de teléfono? La sección de precios indica que puedes “pedir tu propio número”, aunque la disponibilidad exacta depende del plan elegido.
Alternativas
- Frameworks de bots solo de texto (sin integración telefónica): Si tu objetivo es principalmente automatización basada en chat (p. ej., bots estilo Slack/Telegram), las plataformas solo de texto evitan la telefonía y se centran en flujos de trabajo impulsados por mensajes.
- Puertas de enlace de voz Call/SIP a webhook: En lugar de una capa de “voz para bots” dedicada, los equipos pueden enrutar llamadas entrantes/salientes a webhooks o servidores de aplicaciones, e implementar transcripción y TTS ellos mismos.
- APIs de speech-to-text + text-to-speech combinadas con telefonía: Otro enfoque es construir una app de llamadas telefónicas personalizada usando STT/TTS separados y un proveedor de telefonía, lo que da flexibilidad pero requiere más trabajo de integración.
- Automatización de voz unificada para centros de contacto: Para organizaciones que buscan funciones más amplias de centro de llamadas (enrutamiento, informes, asistencia a agentes), las herramientas de automatización de centros de contacto pueden ofrecer flujos de voz más allá de una integración “voz para bots” centrada en desarrolladores.
Alternativas
Lemon
Lemon: agente IA que convierte comandos de voz en tareas completadas. Gestiona mensajes, investiga y delega sin cambiar de aplicación.
OpenAI Realtime API
Crea experiencias de voz en tiempo real y multimodales con OpenAI Realtime API: agentes de voz en el navegador y transcripción en tiempo real.
MiniCPM-o 4.5
MiniCPM-o 4.5 es un modelo de IA multimodal altamente capaz, diseñado para visión, habla y transmisión en vivo de dúplex completo, ofreciendo comprensión visual avanzada, síntesis de voz y capacidades interactivas en tiempo real en una arquitectura compacta de 9 mil millones de parámetros.
PXZ AI
Una plataforma de IA todo en uno que combina herramientas para imagen, video, voz, escritura y chat para mejorar la creatividad y la colaboración.
Gemma AI
Gemma AI es una aplicación inteligente que le llama directamente con recordatorios de voz personalizados e inteligentes para asegurar que nunca olvide tareas importantes, citas o plazos.
CAMB.AI
Convierte un solo directo en un broadcast multilingüe con doblaje de audio con IA en tiempo real para YouTube, Twitch y X. CAMB.AI.