ClawdTalk
ClawdTalk bringt Zweiwege-Telefonie für deinen Clawdbot: Speech-to-Text mit Transkripten, Text-to-Speech und optionale PIN-Sicherheit.
Was ist ClawdTalk?
ClawdTalk ist eine Sprach-Anruf-Schicht für deinen bestehenden „Clawdbot“ (OpenClaw), die es einem Bot ermöglicht, Telefonanrufe statt nur Text zu handhaben. Dein Bot empfängt und sendet weiterhin strukturierte Nachrichten, während ClawdTalk Speech-to-Text, Text-to-Speech und Zweiwege-Telefonie hinzufügt, damit Anrufer sprechen und gesprochene Antworten hören können.
Der Kernzweck ist es, deinen Bot mit echten Telefonanrufen zu verbinden: Du installierst die Skill, verifizierst eine Nummer und rufst dann deinen Clawdbot wie eine Telefonleitung an. Anrufe können PIN-Schutz enthalten, und das System verwendet eine persistente ausgehende WebSocket-Verbindung statt eines öffentlich exponierten Gateways.
Wichtige Funktionen
- Zweiwege-Telefonie (Bot-zu-Telefon und Telefon-zu-Bot): Rufe deinen Bot von einer Telefonnummer an oder lass deinen Bot „ruf mich an“ sagen; beide Richtungen funktionieren out-of-the-box.
- Speech-to-Text mit Transkripten: Die Sprache des Anrufers wird transkribiert und das Transkript als Text-Eingabe für den Bot verwendet.
- Natürliches Text-to-Speech (Telnyx NaturalHD): Sprachausgabe wird mit „natürlich klingendem“ Text-to-Speech generiert (Telnyx-Stimmen), für klares, menschliches Audio.
- Serverseitiger PIN-Schutz: Lege einen PIN fest, um Anrufe ohne den erforderlichen PIN abzulehnen; die Anrufer-Validierung erfolgt serverseitig.
- WebSocket-basierte private Verbindung: ClawdTalk nutzt eine persistente ausgehende WebSocket-Verbindung, sodass dein Bot kein öffentlich exponiertes Gateway benötigt; es funktioniert hinter NAT und Firewalls.
- HD-Voice-Unterstützung: Anrufe an den Bot unterstützen HD Voice mit AMR-WB-Codec (Wideband-Qualität).
ClawdTalk nutzen
- Verbinde deinen Clawdbot (OpenClaw). ClawdTalk positioniert sich als Sprachschicht neben deinem Bot.
- Installiere die ClawdTalk-Skill und verifiziere deine Nummer (Teil der Einrichtung).
- (Empfohlen) Konfiguriere PIN-Schutz. Beim Anmelden legst du den PIN fest und definierst Anrufer-Regeln.
- Starte Anrufe an deinen Bot. Nutze die bereitgestellte Telefonnummer, um deinen Clawdbot anzurufen, oder aktiviere einen „ruf mich an“-Flow über deinen Bot.
- Beobachte Transkripte und Bot-Antworten. Der Bot erhält Anrufe-Events (inkl. Text des Anrufers) und sendet eine Text-Antwort, die dem Anrufer vorgelesen wird.
Anwendungsfälle
- DevOps / Incident-Response-Anrufe: Ein Bot kann einen Befehl des Anrufers in eine Aktion umsetzen (z. B. „Rollback zur letzten stabilen Version und benachrichtige das Team“) und das Ergebnis im selben Anruf vorlesen.
- Persönlicher Assistent für Erinnerungen und Infos: Nutzer fragen nach zeitbasierten oder persönlichen Daten (z. B. Kalender oder Schlafscore) und erhalten eine gesprochene Zusammenfassung.
- Einkaufs- und Checkout-Hilfe: Rufe deinen Bot an, um Artikel zu einem Lebensmitteleinkauf hinzuzufügen und Totalen oder Lieferzeiten zu bestätigen.
- Smart-Home-Steuerung: Lass den Bot Thermostat-Ziele einstellen, Lichter ein-/ausschalten und Türen verriegeln; der Bot bestätigt gesprochen.
- Team-Workflows über mehrere Chat-Tools: Ohne ClawdTalk sind Nachrichten über Apps verteilt; mit ClawdTalk ein einziger Anruf mit strukturierter Antwort.
FAQ
Was fügt ClawdTalk meinem Bot hinzu?
ClawdTalk erweitert um Sprach-Anruf-Funktionen – Speech-to-Text, Text-to-Speech und Zweiwege-Telefonie –, während dein Bot die Text-Interaktionen weiterhandhabt.
Muss ich meinen Bot ins öffentliche Internet exponieren?
Das System verwendet eine persistente ausgehende WebSocket-Verbindung, um den Bot privat zu halten und kein öffentlich exponiertes Gateway zu benötigen.
Können Anrufe auf autorisierte Anrufer beschränkt werden?
Ja. ClawdTalk unterstützt PIN-Schutz mit serverseitiger Ablehnung von Anrufen ohne den erforderlichen PIN.
Erhalten Anrufer Transkripte?
Der Anruf-Flow umfasst das Vorlesen des Transkripts und die Nutzung als Bot-Eingabe; „vollständige Transkripte“ werden in den Plan-Details erwähnt.
Gibt es eine Option für meine eigene Telefonnummer?
Im Preissegment heißt es, du kannst „deine eigene Nummer bestellen“, Verfügbarkeit abhängig vom Plan.
Alternativen
- Nur textbasierte Bot-Frameworks (ohne Telefonie): Wenn dein Ziel primär chatbasierte Automatisierung ist (z. B. Slack/Telegram-ähnliche Bots), vermeiden text-only-Plattformen Telefonie und konzentrieren sich auf nachrichtengetriebene Workflows.
- Call/SIP-to-Webhook-Sprachgateways: Statt einer dedizierten „Bot-Sprachschicht“ können Teams eingehende/ausgehende Anrufe an Webhooks oder App-Server weiterleiten und Transkription sowie TTS selbst implementieren.
- Speech-to-Text + Text-to-Speech APIs mit Telefonieanbieter: Ein anderer Ansatz ist der Aufbau einer eigenen Telefon-App mit separaten STT/TTS-APIs und einem Telefonieanbieter – flexibel, aber mit mehr Integrationsaufwand.
- Einheitliche Contact-Center-Sprachautomatisierung: Für Organisationen, die erweiterte Call-Center-Funktionen (Routing, Reporting, Agentenunterstützung) suchen, bieten Contact-Center-Tools Sprachworkflows jenseits einer developer-zentrierten „Bot-Sprach“-Integration.
Alternativen
Lemon
Lemon: KI-Agent für Sprachbefehle. Verwandelt Sprache in Aufgaben für Nachrichten, Recherche & delegierte Arbeit, ohne App-Wechsel.
OpenAI Realtime API
Erstelle Low-Latency, multimodale Voice- und Realtime-Audio-Erlebnisse mit der OpenAI Realtime API – inkl. Browser-Voice-Agents und Realtime-Transkription.
MiniCPM-o 4.5
MiniCPM-o 4.5 ist ein äußerst leistungsfähiges multimodales KI-Modell, das für Vision, Sprache und voll-duplex Live-Streaming entwickelt wurde. Es bietet fortschrittliches visuelles Verständnis, Sprachsynthese und Echtzeit-Interaktivitätsfähigkeiten in einer kompakten Architektur mit 9 Milliarden Parametern.
PXZ AI
Eine All-in-One AI-Plattform, die Werkzeuge für Bild, Video, Sprache, Schreiben und Chat kombiniert, um Kreativität und Zusammenarbeit zu fördern.
Gemma AI
Gemma AI ist eine intelligente Anwendung, die Sie direkt mit personalisierten, intelligenten Spracherinnerungen anruft, um sicherzustellen, dass Sie wichtige Aufgaben, Termine oder Fristen nicht verpassen.
CAMB.AI
Verwandle einen Live-Stream in einen mehrsprachigen Broadcast mit Echtzeit-KI-Audio-Dubbing für Ziele wie YouTube, Twitch und X – ohne Prozesswechsel.