Whisper vs Parakeet vs Apple: Spracherkennung Mac

Drei lokale Engines für Spracherkennung unter macOS getestet. Parakeet erreicht 80ms, 3-6x schneller als Whisper. Genauigkeit, Sprachen, Empfehlung.

Drei Engines für lokale Spracherkennung dominieren das Diktieren auf dem Mac im Jahr 2026: Whisper von OpenAI, Parakeet von NVIDIA und Apple SpeechAnalyzer. Jede verfolgt einen anderen Ansatz, um gesprochene Sprache in Text umzuwandeln, mit unterschiedlicher Geschwindigkeit, Sprachabdeckung und Kompromissen.

Die meisten Diktier-Apps zwingen Sie zu einer einzigen Engine. Dictato liefert alle drei und lässt Sie je nach Situation wechseln. Eine kurze E-Mail auf Englisch? Parakeet. Notizen auf Swahili? Whisper. Wenig Speicherplatz unter macOS 26? Apple SpeechAnalyzer ist bereits installiert.

So funktioniert jede Engine, das sind ihre Stärken, und so wählen Sie die richtige aus.

Wie Spracherkennungs-Engines funktionieren (kurz)

Vor dem Vergleich hilft ein Blick auf die Mechanik. Alle drei folgen derselben Pipeline: Audio vom Mikrofon erfassen, die Schallwelle in ein Spektrogramm umwandeln (eine Darstellung der Frequenzen über die Zeit), das Spektrogramm durch ein auf Tausenden Stunden Sprache trainiertes neuronales Netz schicken und Text ausgeben.

Die Unterschiede stammen aus der Architektur des Netzes, den Trainingsdaten und den jeweiligen Optimierungen. Diese Faktoren bestimmen Geschwindigkeit, Genauigkeit und Sprachabdeckung.

Alle drei Engines laufen lokal auf Ihrem Mac. Kein Audio verlässt das Gerät. Keine Internetverbindung nötig. Gut für Datenschutz und für die Geschwindigkeit, weil keine Server-Latenz hinzukommt.

Whisper vs Parakeet: direkter Vergleich

Wer sich konkret zwischen Whisper und Parakeet entscheiden muss, bekommt hier die Kurzfassung: Parakeet ist 3-6x schneller und in Englisch genauer. Whisper unterstützt 4x mehr Sprachen. Alles Weitere folgt daraus.

Whisper (OpenAI)Parakeet (NVIDIA)
Geschwindigkeit200-500ms~80ms
Englische GenauigkeitSehr gut (96-97%)Exzellent (96-98%)
Sprachen9925
Modellgröße~600 MB~2,3 GB
ArchitekturSequentiell (Wort für Wort)Parallel (alles auf einmal)
Geeignet fürMehrsprachig, seltene SprachenTägliches Diktieren, Geschwindigkeit

Warum ist Parakeet schneller als Whisper? Whisper erzeugt Text Wort für Wort, von links nach rechts, wie beim Vorlesen. Parakeet sagt alle Wörter gleichzeitig in einem einzigen Durchlauf voraus. Dieser architektonische Unterschied erklärt den Geschwindigkeitsvorsprung um den Faktor 3 bis 6.

Warum unterstützt Whisper mehr Sprachen? Whisper wurde mit 680.000 Stunden mehrsprachigem Web-Audio in 99 Sprachen trainiert. Parakeet trainierte auf einem kleineren, kuratierten Datensatz mit Fokus auf 25 Hauptsprachen: Tiefe und Geschwindigkeit statt Breite.

Welche sollten Sie wählen? Liegt Ihre Sprache unter Parakeets 25, nutzen Sie Parakeet. Der Geschwindigkeitsunterschied verändert das Diktiergefühl. Brauchen Sie Swahili, Tamil, Walisisch oder eine andere Sprache außerhalb der 25, ist Whisper Ihre einzige lokale Option. Dictato liefert beide Engines aus, damit Sie jederzeit wechseln können.

Die drei Engines im Detail

Whisper (OpenAI)

OpenAI veröffentlichte Whisper im September 2022 als Open-Source-Modell für Spracherkennung. Trainiert wurde es mit 680.000 Stunden mehrsprachigem Audio aus dem Web, ein großer Datensatz über 99 Sprachen.

Der Modell-Download liegt bei rund 600 MB. Nach dem Download läuft Whisper Mac vollständig auf GPU und Neural Engine Ihres Geräts.

Geschwindigkeit: 200-500ms abhängig von Mac-Modell und Audiolänge. Ein MacBook Air M1 liegt näher an 500ms, ein M4 Pro drückt den Wert Richtung 200ms. Nicht das Schnellste, aber konstant.

Genauigkeit: Über alle Sprachen hinweg sehr gut. Die Stärke von Whisper: solide Genauigkeit auch in Sprachen, mit denen andere Engines Probleme haben. Das breite mehrsprachige Trainingsmaterial liefert genug Beispiele für Yoruba, Bengali, Katalanisch und Dutzende weitere Sprachen.

Sprachen: 99, mit Abstand die meisten aller lokalen Engines. Darunter Sprachen, die keine andere lokale Engine unterstützt: Swahili, Urdu, Tamil, Malaiisch, Walisisch, Isländisch und viele mehr.

Architektur: Whisper verarbeitet Audio in zwei Stufen. Zuerst analysiert es den Klang, dann erzeugt es Text Wort für Wort, von links nach rechts, wie beim Vorlesen eines Satzes. Dieser sequentielle Ansatz erklärt, warum es langsamer ist als Parakeet. Jedes Wort muss erzeugt werden, bevor das nächste folgt.

Geeignet für: Mehrsprachige Nutzer, seltene Sprachen und Szenarien, in denen Genauigkeit über verschiedene Sprachen hinweg mehr zählt als reine Geschwindigkeit. Wer regelmäßig in Sprachen jenseits der wichtigsten europäischen und asiatischen diktiert, hat in Whisper die einzige lokale Option.

Parakeet (NVIDIA)

Parakeet von NVIDIA wurde von Grund auf für Geschwindigkeit auf aktueller Hardware entworfen.

Der Modell-Download ist mit rund 2,3 GB größer. Diese Größe stammt von einem tieferen Netzwerk, das auf Genauigkeit optimiert ist, nicht von zusätzlicher Sprachunterstützung.

Geschwindigkeit: Etwa 80ms auf Apple Silicon. Kein Tippfehler. Parakeet Mac ist 3-6x schneller als Whisper. Bei 80 ms erscheint der Text, bevor Sie bemerken, dass Sie zu Ende gesprochen haben. Das liegt unterhalb der menschlichen Wahrnehmungsschwelle. Wie das in der Praxis aussieht: 80ms Echtzeit-Diktat auf dem Mac.

Genauigkeit: Exzellent für unterstützte Sprachen. Im Englischen übertrifft Parakeet Whisper in Genauigkeitstests konsistent. Akzente, schnelle Sprache, Nuscheln und Hintergrundgeräusche werden zuverlässig verarbeitet. Für die unterstützten Sprachen ist Parakeet die genaueste verfügbare lokale Engine.

Sprachen: 25. Abgedeckt sind Englisch, Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch, Niederländisch, Polnisch, Russisch, Türkisch, Japanisch, Koreanisch, Chinesisch (Mandarin), Arabisch, Hindi und mehrere weitere. Die wichtigen Weltsprachen sind gut vertreten, doch wer Swahili oder Walisisch benötigt, kommt mit Parakeet nicht weiter.

Architektur: Anders als Whisper sagt Parakeet alle Wörter gleichzeitig voraus, statt eines nach dem anderen. Vergleichbar mit dem Unterschied, ob man einen Satz Wort für Wort liest oder ihn auf einen Blick erfasst. Genau hier liegt der Grund für die hohe Geschwindigkeit: die gesamte Phrase wird in einem Schritt verarbeitet.

Geeignet für: Tägliches Diktieren in unterstützten Sprachen. Liegt Ihre Hauptsprache unter den 25, sollte Parakeet die Standard-Engine sein. Der Geschwindigkeitsunterschied ist nicht subtil, er verändert das Diktiergefühl.

Apple SpeechAnalyzer

Apple hat SpeechAnalyzer mit macOS 26 als Framework für Entwickler eingeführt. Anders als Whisper und Parakeet ist es ins Betriebssystem integriert. Kein Download. Kein Speicherplatz. Bereits vorhanden.

Geschwindigkeit: Variabel. Apples Dokumentation nennt keine konkreten Latenzwerte, und die reale Leistung hängt davon ab, was Ihr Mac sonst tut. In Tests bewegt sich der Wert zwischen 150ms und 400ms: schneller als Whisper unter idealen Bedingungen, langsamer als Parakeet in jedem Fall.

Genauigkeit: Gut. Nicht so stark wie Parakeet im Englischen, etwa vergleichbar mit Whisper für unterstützte Sprachen. Apple verbessert seine Sprachmodelle stetig, und Apple SpeechAnalyzer profitiert von der Integration mit der Neural Engine. Mit dedizierten Modellen, die auf größeren Datensätzen trainiert wurden, kann es jedoch noch nicht mithalten.

Sprachen: 20. Eine kleinere Auswahl als selbst bei Parakeet, fokussiert auf die Sprachen, die Apple in seinem Ökosystem priorisiert: Englisch, Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch, Chinesisch (Mandarin und Kantonesisch), Japanisch, Koreanisch, Arabisch, Hindi, Thailändisch, Vietnamesisch, Indonesisch, Malaiisch, Niederländisch, Polnisch, Russisch, Türkisch und Schwedisch.

Architektur: Apple veröffentlicht keine Architekturdetails. Apple Diktat über SpeechAnalyzer nutzt die Neural Engine direkt und ist damit für die hauseigenen Chips optimiert, auf eine Weise, die Drittanbieter-Modellen nicht offensteht. Folge davon: minimale CPU/GPU-Last, der Mac bleibt kühler und der Akkuverbrauch sinkt.

Geeignet für: Nutzer von macOS 26 und neuer, die Null-Setup wollen und keine zusätzlichen Modelle herunterladen möchten. Bei knappem Speicherplatz (600 MB für Whisper oder 2,3 GB für Parakeet sind auf einem 256-GB-MacBook-Air relevant) ist SpeechAnalyzer sinnvoll. Auch die richtige Wahl, wenn minimaler Ressourcenverbrauch im Vordergrund steht.

Whisper vs Parakeet vs Apple: Funktionsvergleich

MerkmalWhisperParakeetApple SpeechAnalyzer
Download-Größe~600 MB~2,3 GB0 (integriert)
Sprachen992520
Geschwindigkeit (Apple Silicon)200-500ms~80ms150-400ms
Genauigkeit (Englisch)Sehr gutExzellentGut
Genauigkeit (mehrsprachig)Sehr gutExzellent (unterstützte)Gut
Min. macOSSonoma 14Sonoma 14macOS 26+
Open SourceJaTeilweiseNein
CPU/GPU-LastModeratModeratNiedrig
OfflineJaJaJa
Geeignet fürSeltene SprachenGeschwindigkeit + GenauigkeitSpeicherplatz sparen

Wann welche Engine sinnvoll ist

Parakeet, wenn …

Ihre Hauptsprache zu den 25 unterstützten gehört. Sie diktieren häufig, mehrmals täglich für E-Mails, Notizen, Dokumente, Nachrichten. Geschwindigkeit zählt, weil das Diktieren unsichtbar wirken soll, nicht wie ein separater Schritt im Workflow.

Parakeet mit 80ms bedeutet: Tastenkürzel drücken, sprechen, loslassen, Text steht da. Entwickler und Autoren profitieren am meisten davon. Kein Warten, kein Ladekreis. Über Hunderte täglicher Diktate hinweg summiert sich der Vorsprung zu einem spürbar anderen Erlebnis.

Wer hauptsächlich auf Englisch, Spanisch, Französisch, Deutsch oder in einer anderen unterstützten Sprache diktiert, beginnt mit Parakeet und bleibt dabei.

Whisper, wenn …

Sie Sprachen außerhalb der 25 von Parakeet benötigen. Wer in Hindi, Swahili, Tamil, Bengali, Yoruba, Katalanisch oder einer der 99 von Whisper unterstützten Sprachen diktiert, hat hier die einzige lokale Option.

Whisper passt auch zu mehrsprachiger Spracheingabe, wenn Sie innerhalb einer Diktiersitzung zwischen Sprachen wechseln. Dank seines breiten Trainings beherrscht es Code-Switching (Sprachwechsel mitten im Satz) besser als engere Modelle.

Die 200-500ms bleiben schnell genug für komfortables Diktieren. Sie merken den Unterschied zu Parakeet, doch der Flow bricht nicht ab.

Apple SpeechAnalyzer, wenn …

Sie macOS 26 oder neuer einsetzen und das einfachste Setup wollen. Keine Downloads, keine Modellverwaltung, keine Sorgen um Speicherplatz. SpeechAnalyzer ist bereits installiert.

Gute Wahl auch für Laptop-Nutzer, die auf Akkulaufzeit und Lüftergeräusch achten. Da die Neural Engine bei minimaler CPU/GPU-Last arbeitet, bleibt das MacBook bei längeren Diktiersitzungen kühler und leiser.

Auf älteren macOS-Versionen (Sonoma 14 oder Sequoia 15) steht SpeechAnalyzer nicht zur Verfügung. Dann führt der Weg zu Whisper oder Parakeet.

So schneiden sie in der Praxis ab

Szenario 1: Lange E-Mail auf Englisch diktieren

Sie schreiben eine dreiteilige E-Mail an einen Kunden. Tastenkürzel drücken, 30 Sekunden natürlich sprechen, loslassen.

Mit Parakeet erscheint der Text fast vor dem Loslassen. 80ms. Ein Blick, eine kleine Korrektur, abschicken. Gesamtzeit: unter einer Minute.

Mit Whisper folgt eine kurze Pause nach dem Loslassen, vielleicht eine halbe Sekunde. Text erscheint, prüfen, korrigieren, senden. Gesamtzeit ähnlich, aber die Pause bleibt spürbar.

Mit Apple SpeechAnalyzer ähnlich wie Whisper. Kurze Wartezeit, dann Text. Die Genauigkeit erfordert eine Korrektur mehr als bei Parakeet.

Bei einer einzelnen E-Mail ist der Unterschied marginal. Bei 20 E-Mails pro Tag summiert sich der Vorsprung von Parakeet.

Szenario 2: Besprechungsnotizen auf Japanisch diktieren

Sie machen Notizen in einer japanischen Besprechung, in der gelegentlich englische Begriffe einfließen.

Whisper meistert das gut. Es erkennt die Sprache automatisch, transkribiert Japanisch präzise und erfasst die englischen Begriffe ohne Verwechslungen. Das Training auf 99 Sprachen zahlt sich hier aus.

Parakeet unterstützt Japanisch ebenfalls und liefert starke Genauigkeit. Speziell für Japanisch arbeiten beide Engines gut, Parakeet mit Geschwindigkeitsvorteil.

Apple SpeechAnalyzer unterstützt Japanisch, kann jedoch bei schnellen Wechseln zwischen Japanisch und Englisch stärker ins Stocken geraten.

Szenario 3: Diktat auf Swahili

Sie schreiben eine Nachricht auf Swahili.

Whisper ist Ihre einzige Option. Parakeet unterstützt kein Swahili. Apple SpeechAnalyzer unterstützt kein Swahili. Whispers Abdeckung von 99 Sprachen ist der Grund, warum es neben schnelleren Engines bestehen bleibt.

Szenario 4: Kurznotizen auf einem neuen MacBook Air (256 GB)

Sie haben gerade ein neues MacBook Air mit 256 GB eingerichtet. Speicherplatz ist knapp. Diktieren soll sofort funktionieren.

Apple SpeechAnalyzer gewinnt standardmäßig. Null Download, null Speicher. Dictato öffnen, Apple-Engine wählen, loslegen.

Wer später mehr Geschwindigkeit will, lädt Parakeet (2,3 GB) nach. Wer mehr Sprachen braucht, lädt Whisper (600 MB) nach. Für den ersten Tag bringt SpeechAnalyzer Sie ohne jede Installation ans Ziel.

Warum alle drei zählen

Unterschiedliche Aufgaben profitieren von unterschiedlichen Engines. Eine mehrsprachig arbeitende Fachkraft nutzt Parakeet für englische E-Mails (Geschwindigkeit), wechselt für Hindi-Notizen zu Whisper (Sprachabdeckung) und behält Apple SpeechAnalyzer als Reserve, wenn unterwegs der Speicher knapp wird.

Apps mit nur einer Engine erzwingen einen Kompromiss. Entweder Geschwindigkeit oder Sprachabdeckung oder Bequemlichkeit. Nie alles drei.

Dictato erlaubt den Engine-Wechsel in den Einstellungen, ein Klick. Tastenkürzel, Workflow und Vorlieben bleiben gleich. Nur die Engine darunter ändert sich.

Das ist außerdem zukunftssicher. Diese Engines werden besser: Whisper hatte seit 2022 mehrere Updates, Parakeet fügt laufend Sprachen hinzu, Apple iteriert SpeechAnalyzer mit jedem macOS-Release. Wer alle drei zur Verfügung hat, behält Zugriff auf die jeweils beste Option.

Welche Engine sollten Sie wählen?

Es gibt keine universell „beste” Engine. Es gibt nur die beste Engine für genau das, was Sie gerade tun.

  • Parakeet für das schnellste Diktiererlebnis in einer unterstützten Sprache
  • Whisper für seltene Sprachen oder breite Mehrsprachigkeit
  • Apple SpeechAnalyzer für Null-Setup und minimalen Ressourcenverbrauch

Die meisten Nutzer starten am besten mit Parakeet als Standard und wechseln zu Whisper, wenn eine Sprache benötigt wird, die Parakeet nicht abdeckt.

WhisperKit vs Parakeet: optimiert für Apple Silicon

WhisperKit verdient einen eigenen Abschnitt, da es häufig mit Parakeet verglichen wird, obwohl beide unterschiedliche Probleme lösen.

WhisperKit ist ein Open-Source-Framework von Argmax, das Whisper-Modelle nativ auf Apple Silicon über Apples Core ML und die Neural Engine ausführt. Es ist kein anderes KI-Modell, sondern dieselben OpenAI-Whisper-Gewichte, neu kompiliert für schnellere Inference auf M-Series-Chips.

WhisperKitParakeet
Zugrundeliegendes ModellOpenAI Whisper (optimiert)NVIDIA Parakeet
Geschwindigkeit auf Apple Silicon150-300ms~80ms
Sprachen99 (volles Whisper-Set)25
Modellgröße~600 MB~2,3 GB
Open SourceJa (MIT)Ja (CC-BY-4.0)
Geeignet fürMehrsprachig + Apple Neural EngineGeschwindigkeit + englische Genauigkeit

Geschwindigkeit WhisperKit vs Parakeet: WhisperKit halbiert die Whisper-Latenz in etwa, indem es statt der GPU die Neural Engine für die Inferenz nutzt. Aus 200-500ms werden 150-300ms. Parakeet bleibt mit 80ms 2-3x schneller. Der Abstand schrumpft, schließt sich aber nicht.

Genauigkeit WhisperKit vs Parakeet: Ähnlich wie beim breiteren Vergleich Whisper vs Parakeet. WhisperKit erbt die Stärken von Whisper: 99 Sprachen, starke mehrsprachige Genauigkeit. Parakeet gewinnt bei Englisch und den 25 unterstützten Sprachen.

Wann WhisperKit statt Parakeet wählen: Wenn Sie mehrsprachige Unterstützung jenseits von Parakeets 25 Sprachen brauchen und bessere Akkueffizienz als beim Standard-Whisper möchten. Core ML nutzt die Neural Engine, die stromsparender ist als GPU-Inference. WhisperKit läuft kühler und verbraucht auf derselben Hardware weniger Akku als das Standard-Whisper.

Wann Parakeet WhisperKit schlägt: Beim täglichen englischen Diktat mit Geschwindigkeit als Priorität. 80ms vs 150-300ms bleibt ein spürbarer Abstand: Parakeet fühlt sich sofort an, WhisperKit hat eine kurze, wahrnehmbare Pause.

Dictato liefert WhisperKit-optimiertes Whisper und Parakeet gemeinsam aus, damit Sie den Unterschied auf Ihrem Gerät testen können.

Wie man Parakeet auf dem Mac nutzt

Parakeet ist nicht als eigenständige Mac-App verfügbar. NVIDIA veröffentlicht es als Forschungsmodell, nicht als Endkundenprodukt. Um Parakeet unter macOS zu nutzen, braucht es eine App, die es integriert.

Dictato ist derzeit die einzige Diktier-App Mac, die Parakeet als integrierte Engine ausliefert. Installieren Sie Dictato, wählen Sie Parakeet in den Engine-Einstellungen aus, und das 2,3-GB-Modell wird automatisch heruntergeladen. Danach läuft Parakeet lokal auf dem Apple-Silicon-Chip: keine Cloud, kein Python, keine Terminal-Befehle.

Wer nach „Parakeet für Mac” oder „Parakeet macOS” sucht, findet hier den Weg: über eine App, die die Integration übernimmt. Bei NVIDIA gibt es kein DMG zum Direktdownload.

Einen Vergleich aller Apps mit Whisper finden Sie im Guide beste Whisper-Apps für Mac. Einen breiteren Blick auf Sprache-zu-Text bietet der komplette Guide zu Voice-to-Text auf dem Mac.

Testen Sie alle drei Engines in einer App. Dictato herunterladen, die einzige Diktier-App Mac mit Whisper, Parakeet und Apple SpeechAnalyzer. 9,99 €.