doing

doing이란?

doing은 로컬에서 작동하며 프라이버시 중심으로 설계된 Mac 음성 입력 및 전사 앱입니다. 단축키를 누르고 있으면 듣기 시작하고, 음성을 실시간으로 전사한 후 활성 커서 위치에 텍스트를 붙여넣습니다—AI 도구나 텍스트 필드를 사용할 때 타이핑 대신 말로 작업할 수 있습니다.

핵심 목적은 클라우드 업로드와 계정 없이 기기 내 전사입니다. 제품은 녹음에 스크린샷을 첨부하는 기능도 지원하며, 전사가 붙여넣기 전에 적용되는 구성 가능한 후처리(“Skills”)를 제공합니다.

주요 기능

단축키 누름 음성 전사: 단축키를 누르고 있으면 듣기 시작하고, 실시간으로 텍스트가 전사되며 풀면 커서에 붙여넣기.
로컬 & 프라이빗 오디오 처리: 음성이 Mac을 떠나지 않도록 설계—클라우드 전사, 계정, 오디오 업로드 없음.
전사에 연결된 스크린샷 캡처: 단축키를 누른 상태에서 화면 어디든 사각형을 드래그해 스크린샷을 캡처하면 동일 전사 세션에 연결.
활성 커서로 시스템 수준 붙여넣기: 브라우저, 에디터, 터미널 등 타이핑 가능한 모든 곳에서 현재 커서 위치에 붙여넣기.
AI 프롬프트 빠른 전달을 위한 YOLO Mode: 활성화 시 전사 붙여넣기 후 자동으로 Return을 눌러 추가 단계 없이 프롬프트 실행.
전사 후처리를 위한 Skills: 붙여넣기 전에 전사를 처리하는 액션 정의(예: 형식화, 요약, 코드 프롬프트 변환, 텍스트를 이모지로 교체), 붙여넣기 위치에 따른 “앱 인식” 동작.
벤치마크 포함 엔진 옵션: 기기 내 엔진(Parakeet) 탑재, 자체 API 키로 여러 클라우드 엔진 사용 가능; 동일 오디오로 제공자 테스트 벤치마크 도구 포함.
녹음 중 오디오 댁킹: 녹음 시작 시 음악/오디오 자동 페이드아웃, 중지 후 복원.

doing 사용법

Mac에 다운로드 및 설치 (Apple Silicon macOS 14+ 지원).
텍스트 필드에서 설정된 단축키를 누름 (fn Talk 표시)으로 듣기 시작.
전사가 실시간 업데이트되는 동안 말하기.
단축키 풀면 커서 위치에 전사 붙여넣기.
선택적으로 녹음 중 사각형 드래그로 스크린샷 캡처, 또는 YOLO Mode 활성화로 붙여넣기 후 Return 자동 누름.
다른 전사 동작을 원하면 Skills 구성 및 (해당 시) 전사 엔진 선택—내장 기기 내 옵션 또는 자체 API 키로 클라우드 엔진.

사용 사례

에디터에서 AI 코딩 어시스턴트와 대화: 음성 전사와 시스템 수준 붙여넣기로 작업 중 입력 상자에 직접 전사 삽입, YOLO Mode로 Return 눌러 전송.
다양한 앱을 위한 구조화 메시지 준비: 앱 인식 Skills로 이메일(형식화)이나 생산성 도구(불릿 포인트 요약) 등 맥락에 맞게 전사 재작성 또는 포맷.
시각적 맥락 포함 버그 설명: 음성 녹음 중 하나 이상 스크린샷 캡처로 시각 세부 정보 전사 세션에 첨부.
음성 의도를 코드 지향 프롬프트로 생성: 코드 프롬프트 Skill로 음성 설명을 코딩 어시스턴트에 적합한 기술 지시로 변환.
병렬 전사 테스트 실행: 내장 벤치마크 도구로 동일 오디오 샘플에서 기기 내 엔진과 다른 엔진 비교, 속도/비용 트레이드오프 기반 선택.

자주 묻는 질문

doing이 오디오를 클라우드에 업로드하나요? 페이지에 따라 doing은 오디오 업로드나 클라우드 전사 없이 로컬 전사.
doing 사용에 계정이 필요하나요? 페이지에 따라 계정 불필요.
YOLO Mode는 무엇이며 워크플로우를 어떻게 변경하나요? YOLO Mode는 전사 붙여넣기 후 자동 Return을 눌러 AI 프롬프트 즉시 실행.
스크린샷과 음성을 함께 사용할 수 있나요? 네. 단축키 누른 상태에서 사각형 드래그로 스크린샷 캡처 시 전사에 자동 첨부.
다른 전사 엔진을 선택할 수 있나요? 페이지에 따라 로컬 엔진(Parakeet) 탑재, 클라우드 엔진은 자체 API 키 사용; 동일 오디오로 엔진 테스트 벤치마크 도구 포함.

대안

macOS 내장 온디바이스 음성 입력 (시스템 음성 입력): 일반 타이핑을 위한 음성-텍스트 제공하지만, doing에서 설명된 핫키 기반 전사-커서 워크플로, 스크린샷 첨부, 후처리 “Skills”는 제공하지 않음.
클라우드 전사 서비스/API: 일반적으로 오디오 업로드를 요구하며 계정이나 사용량당 비용이 발생할 수 있음; doing은 로컬/오디오 업로드 없음 및 선택적 자체 키 엔진으로 차별화.
구독료를 부과하는 다른 AI 음성 입력 도구: 페이지에서 doing의 일회성 $49 가격을 월 $8–15를 청구하는 다른 도구와 비교; 대안은 프라이버시 모델(클라우드 vs 로컬)과 반복 비용에서 다를 수 있음.
브라우저/에디터 핫키 음성 입력 확장: 특정 앱 내 타이핑을 줄일 수 있지만, doing은 시스템 레벨로 어디서나 타이핑 가능한 곳(단일 사이트나 에디터로 제한되지 않음)에서 작동.

doing

doing이란?

주요 기능

doing 사용법

사용 사례

자주 묻는 질문

대안

대안

Speech to Text Converter Online

Dictato

Sanota

OpenAI Realtime API

Pewbeam

Voicenotes