API Grok Speech to Text и Text to Speech от xAI: конвертация аудио и текста с низкой задержкой по REST/WebSocket, 25+ языков, диаризация и speech tags.
Gemini 3.1 Flash TTS — текст-в-речь от Google: более естественная выразительная речь, гранулярные аудиотеги для контроля стиля, темпа, 70+ языков, SynthID.
Конфигурируемые правила безопасности и поведения для ElevenAgents: направляют голосовой ИИ и блокируют небезопасные или off-policy ответы до пользователя.
HeyGen Developers — API-платформа для генерации, перевода и lipsync видео с аватарами и TTS-моделями для масштабируемых продакшн-процессов.
Lightning TTS v3 — API синтеза речи с низкой задержкой, многоязычностью и voice cloning для голосовых агентов и продакшн-аудио. $10 free credits при регистрации.
Voxtral TTS — многоязычная TTS-модель Mistral AI для естественной генерации речи с низкой задержкой и адаптацией голосов для voice agent.
Gemini 3.1 Flash Live — реальная аудио и голосовая модель Google для более естественных и надежных голосовых взаимодействий в продуктах и API.
Превращайте статьи в эпизоды подкаста: вставьте ссылку и слушайте в приложении или оформите ежедневную подборку по темам.
Voizematic — AI-голосовой агент для автоматизации звонков: входящие/исходящие, запись в Google Calendar и авто-подтверждения на 25+ языках.
Clipchamp AI Voice Over Generator — онлайн TTS для видео: вставьте текст, получите реалистичный дикторский голос. Выбор языков, темпа и эмоций.
Maestra — AI-платформа для перевода медиа: создает транскрипты, субтитры и многоязычные закадровые (в т.ч. в реальном времени).
Inworld AI: real-time API для текста в речь, распознавания речи и speech-to-speech, а также Router с маршрутизацией и failover между LLM провайдерами.
Fliki создаёт AI-видео и озвучку из текста, идей, PPT, блогов или URL продукта. Мультиязычность, AI-аватары. Бесплатно, без карты.
WikiTrip — гео-ориентированный аудиогид для iPhone: приложение читает вслух статьи Wikipedia рядом с вами в AI-голосе, удобно слушать в пути.
Synthesys.io — AI-пакет для генерации реалистичных видео с аватарами, озвучкой, дубляжом на разные языки и созданием изображений для контента.
CAMB.AI превращает один live-стрим в мультиязычное вещание с AI-аудиодубляжом в реальном времени для YouTube, Twitch и X.
LOVO — AI генератор голоса и TTS: реалистичные озвучки на 100+ языках. Онлайн-редактор для синхронизации и субтитров.
Herodot AI — приложение для путешествий: AI-аудиогиды и самостоятельные туры по миру с фотоисториями и навигацией по карте на телефоне.
TADA (Text-Acoustic Dual Alignment) — открытая TTS-модель Hume AI: синхронизирует текст и аудио one-to-one для быстрой и надежной генерации речи.
Ondoku — TTS-софт: вставьте текст, выберите язык и голос, прослушайте на странице и скачайте аудио .mp3.