Grok Speech to Text and Text to Speech APIs

Grok Speech to Text (STT)와 Text to Speech (TTS)가 무엇인가요?

Grok Speech to Text (STT)와 Grok Text to Speech (TTS)는 xAI의 독립형 오디오 API로, 음성을 텍스트로 변환하고 텍스트를 음성으로 변환합니다. 개발자들이 REST 및 WebSocket 엔드포인트를 사용해 자체 애플리케이션에 음성 기능을 추가할 수 있도록 설계되었습니다.

Grok STT의 목표는 구조화된 출력 옵션을 통해 정확한 대본을 생성하는 것입니다. Grok TTS는 음성 태그를 통해 자연스럽고 표현력 있는 전달과 운율의 세밀한 제어를 중점으로 텍스트를 음성으로 변환합니다.

주요 기능

고정밀, 저지연 전사: REST API로 대형 오디오 파일에서 대본 생성, WebSocket API로 실시간 음성 전사.
단어 수준 타임스탬프 및 화자 분리: 사전 녹음 및 스트리밍 오디오에서 화자를 분리하고 식별하기 위해 단어 수준 화자 ID를 디아라이제이션을 통해 포함.
다채널 지원: 동일한 API를 통해 화자 분리를 처리하며 다채널 오디오 파일 전사.
역텍스트 정규화 (포맷팅 활성화 시): 숫자, 날짜, 통화 등의 항목을 “내 전화번호는 …”와 같은 구어체를 예상되는 형식으로 변환하는 구조화된 출력으로 변환.
다국어 음성 인식: 25개 이상 언어 지원 및 언어 간 원활한 전환 가능.
표현력 있는 TTS를 위한 음성 태그: [laugh], [sigh], [whisper], , , 등의 인라인 및 래핑 음성 태그를 사용해 전달 제어.
TTS를 위한 REST 및 WebSocket 생성: 배치 생성을 위해 REST로 텍스트에서 음성 생성, 실시간 음성 출력 시 WebSocket 사용.

Grok Speech to Text (STT)와 Text to Speech (TTS) 사용 방법

xAI API 콘솔에서 시작해 STT 또는 TTS를 위한 제공된 엔드포인트 사용.
전사를 위해 대형 오디오 파일 전사 시 REST 선택, 저지연 실시간 전사 시 WebSocket 선택.
TTS를 위해 음성 생성 시 REST로 텍스트 제출, 실시간 음성 출력 시 WebSocket 사용.
구조화된 대본이 필요하면 포맷팅을 활성화해 역텍스트 정규화 사용. TTS 표현력을 위해 음성 태그를 추가해 운율 제어.

사용 사례

음성 에이전트 및 상호작용 어시스턴트: 사용자 음성을 실시간 전사하고 결과 텍스트를 대화 또는 워크플로 로직에 입력.
회의 또는 지원 통화 실시간 전사: 디아라이제이션과 단어 수준 화자 ID를 사용해 대화 부분을 올바른 화자에게 귀속.
접근성 도구: 구어체를 숫자, 날짜, 통화 등을 포함한 적절히 구조화된 텍스트로 변환, 선택적으로 다국어 지원.
팟캐스트 및 오디오 제작 워크플로: 긴 녹음에서 대본 생성 (배치 전사) 및 스크립트 또는 구조화된 텍스트를 오디오로 변환하는 TTS 사용.
상호작용 오디오 경험: 강조, 일시정지, 표현적 신호를 위한 음성 태그를 사용한 제어된 TTS와 전사를 결합해 양방향 음성 상호작용 지원.

자주 묻는 질문

전사 및 음성 생성을 위한 사용 가능한 엔드포인트는 무엇인가요?
Grok STT와 Grok TTS 모두 배치 요청을 위한 REST 엔드포인트와 저지연 또는 실시간 사용을 위한 WebSocket 엔드포인트를 언급합니다.

Grok STT가 화자 식별을 지원하나요?
네. API는 사전 녹음 및 실시간 스트리밍 오디오 모두에 대해 화자 디아라이제이션과 단어 수준 화자 ID를 포함합니다.

전사에 포맷팅 또는 구조화된 출력이 사용 가능한가요?
네. 포맷팅 활성화 시 Grok STT는 역텍스트 정규화를 적용해 숫자, 날짜, 통화 등의 구어체를 구조화된 출력으로 변환합니다.

Grok STT가 몇 개 언어를 지원하나요?
페이지에서 25개 이상 언어 지원을 명시하며, 언어를 끊김 없이 전환할 수 있다고 안내합니다.

TTS 전달 스타일을 어떻게 제어하나요?
Grok TTS는 텍스트에 [laugh], [sigh], [whisper], , , 등의 음성 태그를 포함해 운율과 감정을 제어할 수 있습니다.

대안

음성-텍스트 API (일반 카테고리): 다른 STT 제공업체들은 화자 분리 및 구두점/포맷팅 옵션이 있는 REST/WebSocket 전사를 제공합니다. 지연 시간, 화자 분리 품질, 역 텍스트 정규화 처리 방식을 기준으로 비교하세요.
마크업/태그 지원 텍스트-음성 API (일반 카테고리): 많은 TTS API가 운율에 영향을 주는 SSML 유사 또는 사용자 지정 태깅을 지원합니다. 태그 표현력, 지원 제어 기능, REST 대 실시간 WebSocket 생성 필요 여부를 비교하세요.
맞춤 오디오 파이프라인 구축 (일반 카테고리): 일부 팀은 ASR 및 포맷팅 구성 요소를 별도로 조합할 수 있습니다 (별도 전사 + 정규화). 이는 통합 복잡성을 증가시킬 수 있지만 각 단계에 대한 제어를 더 제공할 수 있습니다.
대화형 음성 플랫폼 vs 독립 API 사용: 독립 STT/TTS 엔드포인트 대신 엔드투엔드 음성 에이전트 플랫폼을 채택할 수 있습니다. 이는 독립 API의 유연성을 더 통합된 워크플로우와 교환하는 경우가 일반적입니다.