doing
Sprach- und Screenshot-Eingabe für AI-Builder auf dem Mac: On-Device-Transkription ohne Cloud-Upload und ohne Konto. Einmalig 49 $ Download.
Was ist doing?
doing ist eine Mac-App für Sprachaufnahme und -transkription, die lokal und datenschutzorientiert arbeitet. Sie lauscht, wenn du eine Hotkey gedrückt hältst, transkribiert deine Sprache in Echtzeit und fügt den resultierenden Text an der aktiven Cursorposition ein – so kannst du sprechen statt tippen, während du AI-Tools und jedes Textfeld nutzt.
Der Kernzweck ist On-Device-Transkription ohne Cloud-Upload und ohne Konto. Das Produkt unterstützt zudem das Anhängen von Screenshots an eine Aufnahme und bietet konfigurierbare Nachbearbeitung („Skills“) vor dem Einfügen des Transkripts.
Wichtige Funktionen
- Hotkey-gedrückte Sprachtranskription: Starte das Zuhören, indem du eine Hotkey gedrückt hältst, sprich, während der Text in Echtzeit transkribiert wird; lasse los, um am Cursor einzufügen.
- Lokale & private Audio-Verarbeitung: Deine Stimme verlässt nie deinen Mac – keine Cloud-Transkription, kein Konto und kein Audio-Upload.
- Screenshot-Aufnahme zum Transkript hinzugefügt: Während du die Hotkey gedrückt hältst, ziehe ein Rechteck irgendwo auf dem Bildschirm, um Screenshots zu erfassen, die mit derselben Transkriptionssitzung verknüpft sind.
- Systemweites Einfügen an der aktiven Cursorposition: Funktioniert überall, wo du tippen kannst (Browser, Editor, Terminal usw.), und fügt am aktuellen Cursor ein.
- YOLO-Modus für schnelle Übergabe an AI-Prompts: Wenn aktiviert, drückt doing nach dem Einfügen Return, um deinen Prompt ohne Extra-Schritte auszuführen.
- Skills für Transkript-Nachbearbeitung: Definiere Aktionen, die das Transkript vor dem Einfügen verarbeiten (Beispiele: Formalisieren, Zusammenfassen, Umwandeln in Code-Prompt oder Ersetzen von Text durch Emoji), mit „app-bewusstem“ Verhalten je nach Einfügeort.
- Engine-Optionen mit Benchmarks: Lieferumfang umfasst eine On-Device-Engine (Parakeet) und unterstützt eigene API-Keys für mehrere Cloud-Engines; enthält ein Benchmark-Tool, um Anbieter auf demselben Audio zu testen.
- Audio-Ducking während der Aufnahme: Musik/Audio wird automatisch leiser gefadet, wenn die Aufnahme startet, und nach dem Stopp wiederhergestellt.
So nutzt du doing
- Lade herunter und installiere auf dem Mac (macOS 14+ auf Apple Silicon angegeben).
- In einem Textfeld die konfigurierte Hotkey gedrückt halten (angezeigt als fn Talk), um mit dem Zuhören zu beginnen.
- Sprich, während das Transkript in Echtzeit aktualisiert wird.
- Hotkey loslassen, um das Transkript an der Cursorposition einzufügen.
- Optional Screenshots erfassen, indem du während der Aufnahme ein Rechteck ziehst, und/oder YOLO-Modus aktivieren, damit doing nach dem Einfügen Return drückt.
- Für anderes Transkriptionsverhalten konfiguriere Skills und (wo zutreffend) wähle die Transkriptionsengine – entweder die integrierte On-Device-Option oder Cloud-Engines über deinen eigenen API-Key.
Anwendungsfälle
- Mit AI-Coding-Assistent aus dem Editor sprechen: Nutze Sprachtranskription und systemweites Einfügen, damit das Transkript direkt im Arbeits-Inputfeld landet, dann Return drücken (mit YOLO-Modus), um zu senden.
- Strukturierte Nachrichten für verschiedene Apps vorbereiten: Nutze app-bewusste Skills, um dein Transkript für Kontexte wie E-Mail (formalisieren) oder Produktivitäts-Tools (in Bulletpoints zusammenfassen) umzuformatieren.
- Bugs mit visuellen Kontext beschreiben: Erfasse während der Sprachaufnahme einen oder mehrere Screenshots, damit visuelle Details der Transkriptionssitzung angehängt sind.
- Code-orientierte Prompts aus gesprochener Absicht generieren: Nutze einen Code-Prompt-Skill, um eine gesprochene Beschreibung in eine technische Anweisung für einen Coding-Assistenten umzuwandeln.
- Side-by-Side-Transkriptionstests durchführen: Nutze das integrierte Benchmark-Tool, um die On-Device-Engine mit anderen Engines auf demselben Audio-Sample zu vergleichen und basierend auf Geschwindigkeit/Kosten zu wählen.
FAQ
-
Lädt doing mein Audio in die Cloud hoch? Die Seite gibt an, dass doing lokal transkribiert, ohne Audio-Upload und ohne Cloud-Transkription.
-
Brauche ich ein Konto für doing? Kein Konto erforderlich, wie auf der Seite angegeben.
-
Was ist YOLO-Modus und was ändert er am Workflow? YOLO-Modus fügt das Transkript ein und drückt dann automatisch Return, damit der AI-Prompt sofort ausgeführt werden kann.
-
Kann doing Screenshots und Sprache zusammen nutzen? Ja. Während du die Hotkey gedrückt hältst, kannst du ein Rechteck ziehen, um Screenshots automatisch ans Transkript anzuhängen.
-
Kann ich verschiedene Transkriptions-Engines wählen? Die Seite gibt an, dass doing mit einer lokalen Engine (Parakeet) geliefert wird und eigene API-Keys für Cloud-Engines nutzt; es enthält ein Benchmark-Tool, um Engines auf demselben Audio zu testen.
Alternativen
- On-Device-Sprach-Eingabe in macOS integriert (System-Diktat): Bietet Speech-to-Text für allgemeines Tippen, aber nicht den gleichen Hotkey-gesteuerten Transkriptions-zum-Cursor-Workflow, Screenshot-Anhänge oder Nachbearbeitungs-„Skills“, wie bei doing beschrieben.
- Cloud-Transkriptionsdienste/APIs: Erfordern meist Audio-Uploads und oft Konten oder nutzungsabhängige Anbieterkosten; doing positioniert sich lokal/ohne-Audio-Upload mit optionalen bring-your-own-key-Engines.
- Andere AI-Sprach-Eingabe-Tools mit Abos: Die Seite vergleicht doing’s einmalige 49 $-Preisung mit anderen Tools, die 8–15 $ monatlich verlangen; Alternativen unterscheiden sich im Datenschutzmodell (Cloud vs. lokal) und wiederkehrenden Kosten.
- Browser-/Editor-Hotkey-Sprach-Eingabe-Erweiterungen: Reduzieren Tipparbeit in spezifischen Apps, aber doing ist systemweit und funktioniert überall, wo man tippen kann (nicht auf eine Site oder einen Editor beschränkt).
Alternativen
Speech to Text Converter Online
Ein kostenloses Online-Tool, das Audio- und Videodateien in präzise Texttranskripte in über 45 Sprachen umwandelt. Es unterstützt zahlreiche Dateiformate und erfordert keine Downloads oder Anmeldungen.
Dictato
Dictato ist eine Offline-Diktier-App für macOS: Sprache wird lokal in Text umgewandelt und per Hotkey in jede App eingefügt. Ohne Cloud, ohne Timeout.
Memo AI
KI-gestützter Transkriptionsdienst, der Audio- und Videodateien in Text umwandelt.
Sanota
Sanota verwandelt deine Stimme in klare, schöne Texte – damit du Erinnerungen und Ideen einfach festhältst. Starte kostenlos.
OpenAI Realtime API
Erstelle Low-Latency, multimodale Voice- und Realtime-Audio-Erlebnisse mit der OpenAI Realtime API – inkl. Browser-Voice-Agents und Realtime-Transkription.
Pewbeam
Pewbeam hört beim Predigen zu, erkennt Bibelverse in Echtzeit und zeigt sie sofort auf dem Bildschirm – für Pastoren & Projektionsteams, ohne Tippen.