speech-core는 VAD, 스트리밍 및 배치 음성-텍스트 변환, 화자 분리, 음성 합성을 위한 C++17 온디바이스 음성 에이전트 파이프라인 엔진입니다. Linux, Windows, Android, Apple 인접 워크플로에서 클라우드 추론 없이 로컬 음성 앱 개발을 지원합니다.
Voiser.ai는 AI 텍스트 음성 변환 및 보이스오버 생성기로, 글을 자연스러운 음성으로 바꿉니다. 다양한 음성·언어를 지원해 내레이션, 홍보 콘텐츠, 다국어 프로젝트에 적합합니다.
Podio: 뉴스 팟캐스트 메이커, 관심 주제와 뉴스를 AI로 개인화해 매일 업데이트되는 오디오 스트림으로 듣는 iPhone 및 iPad용 앱.
Tico는 Windows용 AI 어시스턴트로, 화면에 있는 내용을 이해해 음성으로 안내하고 올바른 클릭 위치를 보여줍니다.
Yeta AI로 공용 YouTube 영상을 실시간 AI 보이스로 10+개 언어 더빙하세요. 월 15분 무료(카드 불필요).
Morph는 전자책과 오디오북을 동기화해 읽기·듣기·동시 재생을 지원하며, 책 질문과 장별 설명을 위한 AI 어시스턴트도 제공합니다.
FlowSpeech는 스크립트를 문맥 기반 감정과 정확한 쉼표 타이밍으로 자연스러운 TTS 오디오로 변환합니다. 70+ 언어, 30+ 보이스 지원
xAI Grok Speech to Text 및 Text to Speech API로 오디오·텍스트를 변환하세요. REST/WebSocket 저지연, 다국어 지원, 화자 분리·TTS 음성 태그 제공.
Gemini 3.1 Flash TTS는 자연스럽고 표현력 있는 텍스트 음성 변환 모델로, 음성 스타일·속도를 제어하는 오디오 태그와 SynthID 워터마킹을 제공합니다.
ElevenLabs Guardrails 2.0은 ElevenAgents용 안전·행동 제어 레이어로 음성 AI 답변을 안내하고, 위험/정책 위반 출력을 차단합니다.
HeyGen API 기반 플랫폼으로 아바타 영상 생성·번역·립싱크와 TTS 음성 생성까지, 대규모 프로덕션 워크플로에 맞게 개발하세요.
Lightning TTS v3는 Smallest.ai의 저지연 멀티링구얼 TTS API로 음성 에이전트와 프로덕션 오디오에 적합합니다. 가입 시 $10 무료 크레딧.
Voxtral TTS는 Mistral AI의 다국어 TTS 모델로, 음성 에이전트 워크플로에 맞춘 자연스럽고 저지연 음성 생성을 지원합니다.
Gemini 3.1 Flash Live는 Google의 실시간 오디오·음성 모델로, Google 제품에서 더 자연하고 안정적인 음성 상호작용을 지원합니다.
어떤 글이든 팟캐스트 에피소드로 바꿔 들어보세요. 링크를 붙여 팟캐스트 앱에서 재생하거나, 주제별 매일 피드를 구독하세요.
Voizematic은 AI 보이스 에이전트 소프트웨어로 전화 자동화를 구축·배포합니다. 무제한 인바운드/아웃바운드, Google 캘린더 예약, 자동 팔로업(25+ 언어).
Clipchamp AI Voice Over Generator로 온라인 텍스트를 자연스러운 음성 내레이션으로 생성하세요. 앱 다운로드 없이 다국어, 속도, 감정 조절.
Maestra는 AI 미디어 번역 플랫폼으로 자막·대본·다국어 보이스오버를 생성하며, 실시간 번역과 라이브 캡션도 지원합니다.
Inworld AI의 실시간 TTS, STT, realtime speech-to-speech API와 Router로 대화형 앱에서 음성 요청을 라우팅·페일오버하세요.
Fliki는 텍스트·PPT·블로그·제품 URL로 AI 영상과 보이스오버를 제작합니다. 80+ 언어, AI 아바타, 무료 시작(카드 불필요).