Signal Recorder SR-7은 Mac과 iPhone용 음성 녹음 앱으로, 기기 내 음성 기록과 로컬 제목·요약 생성, Markdown 내보내기를 지원합니다. 오프라인 우선 워크플로와 선택적 iCloud 동기화, 구독 없이 사용할 수 있습니다.
speech-core는 VAD, 스트리밍 및 배치 음성-텍스트 변환, 화자 분리, 음성 합성을 위한 C++17 온디바이스 음성 에이전트 파이프라인 엔진입니다. Linux, Windows, Android, Apple 인접 워크플로에서 클라우드 추론 없이 로컬 음성 앱 개발을 지원합니다.
Krisp Voice Translation API는 라이브 통화와 음성 앱을 위한 실시간 음성-음성 번역 API입니다. 61개 언어와 임의 조합 번역, 배경 음성 제거, 사용자 지정 용어 제어를 지원합니다.
Mac과 Windows용 온디바이스 AI 받아쓰기 앱 Vox. 말한 내용을 클립보드에 정리된 텍스트로 바꿔 주며, 로컬 처리·계정 없이 사용·오프라인 작업을 지원합니다.
Wave는 커서 위치에 음성을 텍스트로 입력하는 macOS 기본 받아쓰기 앱입니다. 로컬 Whisper 오프라인 개인 정보 보호 또는 Groq 빠른 전사를 지원합니다.
Daisy는 Mac용 오픈소스 로컬 우선 회의 녹음 및 받아쓰기 앱입니다. 오디오를 기기에서 기록하고, 로컬로 전사하며, 마크다운으로 저장하고, 로컬 MCP 서버로 Claude Desktop이나 Cursor에 연결할 수 있습니다.
LocalClicky는 로컬에서 실행되는 macOS 음성 비서로, 음성을 전사하고 명령을 추론하며 화면을 확인하고 클라우드로 데이터 전송 없이 Mac을 제어합니다. 핸즈프리 시스템 제어와 오프라인 처리를 원하는 사용자를 위한 제품입니다.
Sun은 애플리케이션과 제품을 위한 협업형 실시간 음성 상호작용 API입니다. 1:1 채팅을 넘어서는 라이브 음성 경험이 필요한 개발자에게 적합합니다.
Ringg Parrot STT V1은 힌디어, 영어 및 코드 혼합 음성의 실시간·파일 기반 전사를 지원하는 speech-to-text API입니다. 저지연 전사와 Python 연동에 적합합니다.
TongueType는 macOS용 음성 받아쓰기 앱으로, Whisper AI로 로컬에서 음성을 텍스트로 변환해 커서 위치에 바로 입력합니다. 오디오·비디오 파일 전사도 지원하며 클라우드 처리, 계정, 구독이 없습니다.
Carbon Voice는 팀용 비동기 음성 메시지 앱으로, 사람과 AI 에이전트를 한곳에 모읍니다. 음성 업데이트를 전사해 보내고 음성 또는 텍스트로 답장할 수 있으며, 데스크톱·모바일·워치·위젯에서 이용할 수 있습니다.
Tico는 Windows용 AI 어시스턴트로, 화면에 있는 내용을 이해해 음성으로 안내하고 올바른 클릭 위치를 보여줍니다.
Snaply는 Mac에서 회의 음성을 녹음해 전체 자막, 깔끔한 요약, 액션 아이템을 생성합니다. 로컬 처리로 개인정보를 지키세요.
Memoket Gem은 대화를 기록해 AI 도구에 활용할 수 있는 맥락으로 바꾸는 웨어러블 캡처 기기예요. 한 번 누르는 ‘press once’ 워크플로우.
AssemblyAI Voice Agent API로 오디오를 스트리밍하고 음성 출력까지 실시간으로 받아 음성 에이전트를 구축하세요. 전사 옵션(말더듬·화자 역할 등) 설정 가능
Ora는 macOS에서 오디오를 외부 서버로 보내지 않는 개인 온디바이스 동시 통역 앱으로, 실시간 스트리밍 부분 자막을 제공합니다. 무료 다운로드
SpeakMac은 Mac용 오프라인 음성-텍스트 받아쓰기 앱으로, 기기 내 처리로 활성 창에 실시간 자막을 입력합니다(25+ 언어, 구독 없음).
SpeakON은 iPhone에서 한 버튼으로 말한 내용을 앱에 바로 입력되는 매끈한 텍스트로 바꿔, 타이핑 부담을 줄여줍니다.
Harker는 macOS에서 전역 단축키로 어디서나 받아쓰기를 하는 무료 음성-텍스트 앱입니다. 프리미엄은 AI 글쓰기 스타일, 포맷·문법, 번역을 추가합니다.
xAI Grok Speech to Text 및 Text to Speech API로 오디오·텍스트를 변환하세요. REST/WebSocket 저지연, 다국어 지원, 화자 분리·TTS 음성 태그 제공.