AssemblyAI Voice Agent API

AssemblyAI Voice Agent API란?

AssemblyAI Voice Agent API는 애플리케이션에 오디오를 스트리밍하여 실시간으로 음성 관련 출력을 받을 수 있는 음성 에이전트 구축 API입니다. 이 페이지는 API를 음성 경험에 작업 완료 및 음성 이해 기능을 추가하는 방법으로 위치지으며, 음성 처리의 핵심 부분을 처리하여 개발자가 에이전트의 제품 로직에 집중할 수 있게 합니다.

동반 예제는 API가 다양한 프롬프트 스타일에서 전사본을 생성할 수 있음을 나타내며(예: 임상 이력 평가 세부 사항 캡처, 대화 분석 적합성, 고유명사), 오디오 태그, 말더듬 데이터, 화자 역할 라벨링과 같은 풍부한 전사 구조를 반환하도록 구성할 수 있습니다.

주요 기능

실시간 오디오 스트리밍(입력 → 출력): “오디오 입력 스트리밍, 오디오 출력 받기”를 위해 설계되었으며, 에이전트가 상호작용 중 응답하는 음성 에이전트 워크플로를 지원합니다.
작업 핵심 엔티티에 대한 정확한 전사: 예제 텍스트는 이메일, 전화번호, 주문 ID, 이름과 같은 항목을 작업 완료에 흔히 필요한 대로 정확히 처리하는 것을 강조합니다.
전사본을 위한 맥락 인식 프롬프트: 전사본 생성 방식을 변경하는 프롬프트를 지원합니다(예: 임상 이력 평가에서 약물 및 용량을 정확히 캡처할 때).
전사 세부 사항 제어(원문, 말더듬, 키워드): 예제는 말더듬(채움말, 반복, 재시작, 말더듬음, 비공식 발화)을 포함하고 키 용어를 요청하는 옵션을 보여줍니다.
오디오 태그 및 이벤트 라벨링: “비음성 오디오 이벤트” 출력을 보여주며, “beep”와 같은 태그를 추가하여 소리를 발화 내용과 구분하는 예제를 포함합니다.
전사본 내 화자 역할: 각 화자 턴에 역할(예: [Speaker:NURSE] / [Speaker:PATIENT] 형식)을 라벨링하는 것을 지원합니다.
언어 감지 및 코드 스위칭 보존: 영어/스페인어 코드 스위칭을 “그대로” 보존하는 예제를 포함하며, 언어 감지를 표시합니다.

AssemblyAI Voice Agent API 사용 방법

API 키 가져오기: 페이지에 “Get your API Key” 콜아웃이 포함되어 있습니다.
실시간 Voice Agent API 데모 체험: 제공된 “Try the Voice Agent API live” 지원 에이전트를 사용하여 실시간 동작을 경험하세요.
스트리밍 오디오 중심으로 음성 에이전트 구축: API를 애플리케이션에 통합하여 에이전트가 통화 중 오디오 입력을 보내고 전사/출력을 받을 수 있게 합니다.
프롬프트 및 구조화된 요청으로 전사 출력 조정: 작업에 따라 필요한 전사 세부 수준(예: 원문 말더듬, 오디오 태그, 화자 역할 라벨링, 언어/코드 스위칭 처리)을 선택하세요.

사용 사례

임상 섭취 또는 임상 이력 평가 지원: 전사 출력을 약물 이름 및 용량 캡처와 말더듬 데이터(채움말, 반복, 재시작, 말더듬음, 비공식 발화)를 포함하도록 구성하여 더 의미 있는 평가를 합니다.
대화 분석 전사본: “대화 분석에 적합한” 전사본을 생성하며, 비음성 이벤트(예: beep)에 대한 태그를 선택적으로 추가하고 말더듬 포함 여부를 제어합니다.
신뢰할 수 있는 엔티티 캡처가 필요한 자동 지원 라인: 전화번호, 주문 ID, 이름과 같은 운영 세부 사항에 대한 전사 정확성을 사용하여 에이전트가 일반 고객 요청을 완료할 수 있게 합니다.
역할 기반 통화 요약: 각 화자 턴에 역할(예: 간호사/환자)을 라벨링하여 누가 무엇을 말했는지에 의존하는 워크플로의 후속 처리를 쉽게 합니다.
이중 언어 음성 상호작용: 영어와 스페인어 간 자연스러운 코드 스위칭을 보존하여 전사본이 단일 언어를 강제하지 않고 실제 발화를 반영합니다.

자주 묻는 질문

라이브 데모 에이전트가 API로 구축할 수 있는 에이전트와 동일한가요?

네. 페이지에 라이브 데모에서 보여지는 지원 에이전트가 Voice Agent API를 기반으로 구축되었으며—당신이 배포할 수 있는 바로 그 API라고 명시되어 있습니다.

데모 에이전트가 다른 제품 지원을 제공하나요?

아니요. 페이지에 에이전트가 AssemblyAI 제품에 대한 고객 지원만 제공한다고 명시되어 있습니다.

에이전트가 말더듬을 포함한 전사를 반환할 수 있나요?

예시에서 전사 생성 시 fillers, repetitions, restarts, stutters, 비공식 발음 등의 말더듬 정보를 포함하도록 프롬프트할 수 있음을 알 수 있습니다.

전사에 비음성 오디오 태그를 포함할 수 있나요?

네. 예시에서 “audio tags”를 보여주며, 전사 생성 중 비프음이 태그로 포함된 사례를 제시합니다.

여러 언어나 코드 스위칭을 처리할 수 있나요?

페이지에 영어와 스페인어 간 자연스러운 코드 스위칭을 감지하고 보존하는 예시가 포함되어 있습니다.

대안

구성 가능한 구두점/화자 분리를 지원하는 음성-텍스트 API: 주로 전사가 필요하다면 화자 분리를 지원하는 표준 음성-텍스트 API가 대안이 될 수 있습니다. 다만 여기 보여준 전사 프롬프트 제어와 오디오 태깅 동작을 재현하려면 추가 작업이 필요할 수 있습니다.
일반 음성 에이전트 프레임워크 (LLM 오케스트레이션 + 음성 모델): 스트리밍 ASR/TTS와 LLM을 결합한 음성 에이전트 프레임워크를 사용할 수도 있습니다. 이는 프롬프트 기반 전사 포맷팅과 구조화된 출력의 부담을 자신의 파이프라인으로 옮기는 방식입니다.
고객 지원 IVR/음성 플랫폼: 지원 라인 자동화를 위해 IVR 스타일 플랫폼이 일반적인 통화 흐름을 처리할 수 있지만, 하류 분석을 위한 동일한 전사 수준 제어(예: 말더듬, 오디오 태그, 화자 역할 라벨)를 제공하지 않을 수 있습니다.
화자 라벨이 포함된 회의/통화 전사 도구: 이러한 도구는 화자 귀속이 포함된 전사를 생성할 수 있습니다. API 예시에서 보여준 말더듬 캡처 및 구성 가능한 전사 동작 수준을 지원하는지 비교하세요.