UStackUStack
AssemblyAI Voice Agent API icon

AssemblyAI Voice Agent API

AssemblyAI Voice Agent API로 오디오를 스트리밍하고 음성 출력까지 실시간으로 받아 음성 에이전트를 구축하세요. 전사 옵션(말더듬·화자 역할 등) 설정 가능

AssemblyAI Voice Agent API

AssemblyAI Voice Agent API란?

AssemblyAI Voice Agent API는 애플리케이션에 오디오를 스트리밍하여 실시간으로 음성 관련 출력을 받을 수 있는 음성 에이전트 구축 API입니다. 이 페이지는 API를 음성 경험에 작업 완료 및 음성 이해 기능을 추가하는 방법으로 위치지으며, 음성 처리의 핵심 부분을 처리하여 개발자가 에이전트의 제품 로직에 집중할 수 있게 합니다.

동반 예제는 API가 다양한 프롬프트 스타일에서 전사본을 생성할 수 있음을 나타내며(예: 임상 이력 평가 세부 사항 캡처, 대화 분석 적합성, 고유명사), 오디오 태그, 말더듬 데이터, 화자 역할 라벨링과 같은 풍부한 전사 구조를 반환하도록 구성할 수 있습니다.

주요 기능

  • 실시간 오디오 스트리밍(입력 → 출력): “오디오 입력 스트리밍, 오디오 출력 받기”를 위해 설계되었으며, 에이전트가 상호작용 중 응답하는 음성 에이전트 워크플로를 지원합니다.
  • 작업 핵심 엔티티에 대한 정확한 전사: 예제 텍스트는 이메일, 전화번호, 주문 ID, 이름과 같은 항목을 작업 완료에 흔히 필요한 대로 정확히 처리하는 것을 강조합니다.
  • 전사본을 위한 맥락 인식 프롬프트: 전사본 생성 방식을 변경하는 프롬프트를 지원합니다(예: 임상 이력 평가에서 약물 및 용량을 정확히 캡처할 때).
  • 전사 세부 사항 제어(원문, 말더듬, 키워드): 예제는 말더듬(채움말, 반복, 재시작, 말더듬음, 비공식 발화)을 포함하고 키 용어를 요청하는 옵션을 보여줍니다.
  • 오디오 태그 및 이벤트 라벨링: “비음성 오디오 이벤트” 출력을 보여주며, “beep”와 같은 태그를 추가하여 소리를 발화 내용과 구분하는 예제를 포함합니다.
  • 전사본 내 화자 역할: 각 화자 턴에 역할(예: [Speaker:NURSE] / [Speaker:PATIENT] 형식)을 라벨링하는 것을 지원합니다.
  • 언어 감지 및 코드 스위칭 보존: 영어/스페인어 코드 스위칭을 “그대로” 보존하는 예제를 포함하며, 언어 감지를 표시합니다.

AssemblyAI Voice Agent API 사용 방법

  • API 키 가져오기: 페이지에 “Get your API Key” 콜아웃이 포함되어 있습니다.
  • 실시간 Voice Agent API 데모 체험: 제공된 “Try the Voice Agent API live” 지원 에이전트를 사용하여 실시간 동작을 경험하세요.
  • 스트리밍 오디오 중심으로 음성 에이전트 구축: API를 애플리케이션에 통합하여 에이전트가 통화 중 오디오 입력을 보내고 전사/출력을 받을 수 있게 합니다.
  • 프롬프트 및 구조화된 요청으로 전사 출력 조정: 작업에 따라 필요한 전사 세부 수준(예: 원문 말더듬, 오디오 태그, 화자 역할 라벨링, 언어/코드 스위칭 처리)을 선택하세요.

사용 사례

  • 임상 섭취 또는 임상 이력 평가 지원: 전사 출력을 약물 이름 및 용량 캡처와 말더듬 데이터(채움말, 반복, 재시작, 말더듬음, 비공식 발화)를 포함하도록 구성하여 더 의미 있는 평가를 합니다.
  • 대화 분석 전사본: “대화 분석에 적합한” 전사본을 생성하며, 비음성 이벤트(예: beep)에 대한 태그를 선택적으로 추가하고 말더듬 포함 여부를 제어합니다.
  • 신뢰할 수 있는 엔티티 캡처가 필요한 자동 지원 라인: 전화번호, 주문 ID, 이름과 같은 운영 세부 사항에 대한 전사 정확성을 사용하여 에이전트가 일반 고객 요청을 완료할 수 있게 합니다.
  • 역할 기반 통화 요약: 각 화자 턴에 역할(예: 간호사/환자)을 라벨링하여 누가 무엇을 말했는지에 의존하는 워크플로의 후속 처리를 쉽게 합니다.
  • 이중 언어 음성 상호작용: 영어와 스페인어 간 자연스러운 코드 스위칭을 보존하여 전사본이 단일 언어를 강제하지 않고 실제 발화를 반영합니다.

자주 묻는 질문

라이브 데모 에이전트가 API로 구축할 수 있는 에이전트와 동일한가요?

네. 페이지에 라이브 데모에서 보여지는 지원 에이전트가 Voice Agent API를 기반으로 구축되었으며—당신이 배포할 수 있는 바로 그 API라고 명시되어 있습니다.

데모 에이전트가 다른 제품 지원을 제공하나요?

아니요. 페이지에 에이전트가 AssemblyAI 제품에 대한 고객 지원만 제공한다고 명시되어 있습니다.

에이전트가 말더듬을 포함한 전사를 반환할 수 있나요?

예시에서 전사 생성 시 fillers, repetitions, restarts, stutters, 비공식 발음 등의 말더듬 정보를 포함하도록 프롬프트할 수 있음을 알 수 있습니다.

전사에 비음성 오디오 태그를 포함할 수 있나요?

네. 예시에서 “audio tags”를 보여주며, 전사 생성 중 비프음이 태그로 포함된 사례를 제시합니다.

여러 언어나 코드 스위칭을 처리할 수 있나요?

페이지에 영어와 스페인어 간 자연스러운 코드 스위칭을 감지하고 보존하는 예시가 포함되어 있습니다.

대안

  • 구성 가능한 구두점/화자 분리를 지원하는 음성-텍스트 API: 주로 전사가 필요하다면 화자 분리를 지원하는 표준 음성-텍스트 API가 대안이 될 수 있습니다. 다만 여기 보여준 전사 프롬프트 제어와 오디오 태깅 동작을 재현하려면 추가 작업이 필요할 수 있습니다.
  • 일반 음성 에이전트 프레임워크 (LLM 오케스트레이션 + 음성 모델): 스트리밍 ASR/TTS와 LLM을 결합한 음성 에이전트 프레임워크를 사용할 수도 있습니다. 이는 프롬프트 기반 전사 포맷팅과 구조화된 출력의 부담을 자신의 파이프라인으로 옮기는 방식입니다.
  • 고객 지원 IVR/음성 플랫폼: 지원 라인 자동화를 위해 IVR 스타일 플랫폼이 일반적인 통화 흐름을 처리할 수 있지만, 하류 분석을 위한 동일한 전사 수준 제어(예: 말더듬, 오디오 태그, 화자 역할 라벨)를 제공하지 않을 수 있습니다.
  • 화자 라벨이 포함된 회의/통화 전사 도구: 이러한 도구는 화자 귀속이 포함된 전사를 생성할 수 있습니다. API 예시에서 보여준 말더듬 캡처 및 구성 가능한 전사 동작 수준을 지원하는지 비교하세요.