AssemblyAI Voice Agent API

Создавайте голосовых агентов с AssemblyAI Voice Agent API: передавайте аудио потоком и получайте голосовой output, настраивая транскрипт.

AI Распознавание речи

AI Голосовые Ассистенты

Транскрибация

Посетить Сайт

Что такое AssemblyAI Voice Agent API?

AssemblyAI Voice Agent API — это API для создания голосовых агентов, которые могут передавать аудио в приложение и получать голосовой вывод в реальном времени. Страница позиционирует API как способ добавить выполнение задач и понимание речи в голосовой опыт, обрабатывая ключевые этапы обработки голоса, чтобы разработчики могли сосредоточиться на продуктовой логике агента.

Прилагаемые примеры показывают, что API может генерировать транскрипты в разных стилях промптинга (например, захват деталей оценки клинической истории, пригодности для разговорного анализа и собственных имен), и может быть настроен на возврат более богатых структур транскрипции, таких как аудиотэги, данные о дословных запинках и маркировка ролей спикеров.

Ключевые возможности

Потоковая передача аудио в реальном времени (вход — аудио, выход — аудио): Разработан для «передача аудио, получение аудио», поддерживает сценарии голосовых агентов, где агент отвечает во время взаимодействия.
Точная транскрипция для критически важных сущностей: Примеры подчёркивают правильную обработку элементов вроде email, номеров телефонов, ID заказов и имён, которые часто нужны для выполнения задач.
Контекстно-ориентированный промптинг для транскриптов: Поддерживает промптинг, изменяющий способ генерации транскрипта (например, когда оценка клинической истории требует точного захвата лекарств и дозировок).
Контроль детализации транскрипта (дословно, запинки, ключевые термины): Примеры демонстрируют опции включения запинок (филлеры, повторения, перезапуски, заикания, неформальная речь) и запрос ключевых терминов.
Аудиотэги и маркировка событий: Показывает вывод «non-speech audio event» и пример добавления тегов вроде «beep», отличая звуки от речи.
Роли спикеров в транскриптах: Поддерживает маркировку каждого хода спикера ролью (например, [Speaker:NURSE] / [Speaker:PATIENT]).
Обнаружение языка и сохранение code-switching: Включает пример сохранения code-switching между английским и испанским «как есть», с индикацией обнаружения языка.

Как использовать AssemblyAI Voice Agent API

Получите API-ключ: На странице есть призыв «Get your API Key».
Попробуйте живую демо Voice Agent API: Используйте предоставленного «Try the Voice Agent API live» support agent, чтобы ощутить поведение в реальном времени.
Постройте голосового агента вокруг потокового аудио: Интегрируйте API в приложение, чтобы агент мог отправлять аудиовход и получать транскрипцию/вывод во время звонка.
Настройте вывод транскрипции с помощью промптинга и структурированных запросов: Выберите уровень детализации транскрипта (например, дословные запинки, аудиотэги, маркировка ролей спикеров, обработка языка/code-switching) в зависимости от задачи.

Сценарии использования

Поддержка клинического приёма или оценки клинической истории: Настройте вывод транскрипта для захвата названий лекарств и дозировок, включая данные о запинках (филлеры, повторения, перезапуски, заикания, неформальная речь) для более значимой оценки.
Транскрипты для разговорного анализа: Генерируйте транскрипты «подходящие для conversational analysis», опционально добавляя теги для неречевых событий (например, beep) и контролируя включение запинок.
Автоматизированные линии поддержки с надёжным захватом сущностей: Используйте точность транскрипции для операционных деталей вроде номеров телефонов, ID заказов и имён, чтобы агент мог выполнять типичные запросы клиентов.
Ролевые сводки звонков: Маркируйте каждый ход спикера ролями (вроде nurse/patient), чтобы упростить последующую обработку для workflow, зависящих от того, кто что сказал.
Двуязычные голосовые взаимодействия: Сохраняйте естественный code-switching между английским и испанским, чтобы транскрипт отражал сказанное без принуждения к одному языку.

Часто задаваемые вопросы

Демонстрационный агент в прямом эфире — тот же, что я могу создать с помощью API?

Да. На странице указано, что агент поддержки, показанный в живой демо, построен на Voice Agent API — том же самом, который вы можете выпустить.

Предоставляет ли демонстрационный агент поддержку для других продуктов?

Нет. На странице указано, что агент предоставляет поддержку клиентов только для продуктов AssemblyAI.

Может ли агент возвращать транскрипты с включёнными дисфлуенциями?

Примеры показывают, что генерация транскрипта может быть настроена на включение информации о дисфлуенциях, такой как филлеры, повторения, перезапуски, заикания и неформальная речь.

Могут ли транскрипты включать теги неречевых аудио?

Да. Примеры демонстрируют «audio tags» и случай, когда сигнал beep включён как тег во время генерации транскрипта.

Может ли он обрабатывать несколько языков или переключение кодов?

На странице приведён пример обнаружения языка и сохранения естественного переключения кодов между английским и испанским.

Альтернативы

Speech-to-text API с настраиваемой пунктуацией/диаризацией: Если вам в основном нужна транскрипция, стандартный speech-to-text API с диаризацией спикеров может быть альтернативой; однако вам может потребоваться дополнительная работа, чтобы воспроизвести те же контроли промптинга транскрипта и поведение тегирования аудио, показанные здесь.
Универсальные фреймворки голосовых агентов (оркестрация LLM + модели речи): Вы также можете использовать фреймворк голосового агента, сочетающий потоковый ASR/TTS и LLM. Это может переложить бремя форматирования транскрипта на основе промптов и структурированных выходов на вашу собственную конвейерную линию.
Платформы IVR/голосовые для поддержки клиентов: Для автоматизации линий поддержки платформы в стиле IVR могут обрабатывать типичные сценарии звонков, но они могут не предлагать тот же контроль на уровне транскрипта (например, дословные дисфлуенции, теги аудио, метки ролей спикеров), предназначенный для последующего анализа.
Инструменты транскрипции встреч/звонков с метками спикеров: Эти инструменты могут генерировать транскрипты с атрибуцией спикеров; вы бы сравнивали их на основе поддержки того же уровня захвата дисфлуенций и настраиваемых поведений транскрипции, продемонстрированных в примерах API.

Альтернативы

OpenAI Realtime API

Создавайте голосовые и realtime-аудио-сценарии с низкой задержкой с OpenAI Realtime API: браузерные voice agents и realtime-транскрипция.

Lemon

Lemon — AI-агент для управления задачами голосом. Выполняйте работу, не переключаясь между приложениями.

Speech to Text Converter Online

Бесплатный онлайн-инструмент, который преобразует аудио- и видеофайлы в точные текстовые транскрипции на более чем 45 языках. Поддерживает множество форматов файлов и не требует загрузок или регистрации.

Pewbeam

Pewbeam слушает вашу проповедь и в реальном времени находит библейские стихи, выводя их на экран без ввода и задержек для пасторов и команд проекций.

Dictato

Dictato — офлайн диктовка речи в текст для macOS без облака и тайм-аута: расшифровка на устройстве и вставка в любое приложение.

PXZ AI

Все-в-одном AI платформа, которая объединяет инструменты для изображения, видео, голоса, письма и чата для повышения креативности и сотрудничества.