Meeting-Notizen ohne Cloud: So transkribiert KI eure Gespräche lokal und kostenlos

Studio-Kondensator-Mikrofon und offenes MacBook Pro mit Audio-Waveform — lokale KI-Transkription ohne Cloud

17. Mai 2026

Meeting-Notizen schreiben sich nicht mehr selbst, aber sie müssen es 2026 auch nicht mehr. Eine offene Sprachmodell-Generation rund um OpenAIs Whisper transkribiert Gespräche, Sprachmemos und Workshops mittlerweile auf jedem halbwegs aktuellen Notebook. Lokal, kostenlos, ohne dass eine Sekunde Audio jemals in eine fremde Cloud läuft. Wer 2026 immer noch fünfzehn Euro pro Monat an Otter, Fireflies oder vergleichbare Anbieter zahlt, zahlt vor allem für ein Datenschutzrisiko.

von Arno Hoffrichter · Zuletzt aktualisiert: 20. Mai 2026, 15:14 Uhr · Lesezeit: ca. 9 Minuten

Ein Notebook mit acht Gigabyte Arbeitsspeicher reicht 2026 aus, um zwei Stunden Meeting in zwölf Minuten in sauberen Text zu verwandeln. Das ganze Verfahren läuft offline und kostet null Euro pro Monat. (Bild: Collective Brain)

Lokale KI-Transkription 2026: Mit OpenAIs Open-Source-Modell Whisper und einem Wrapper wie whisper.cpp oder Faster-Whisper transkribiert ihr Audiogespräche komplett lokal in Text, auf jedem Mac mit Apple Silicon oder PC mit NVIDIA-GPU. Apps wie MacWhisper und Aiko machen das Ganze in zwei Klicks zugänglich, kostenfreie CLI-Varianten brauchen fünf Minuten Setup. DSGVO-konform, ohne Cloud, ohne monatliche Gebühr.

Inhalt

Warum Cloud-Transkription 2026 ein Datenschutzproblem ist

Welche Open-Source-Modelle 2026 wirklich funktionieren

Hardware-Anforderungen: Was muss euer Mac oder PC können?

5-Minuten-Setup: Whisper lokal auf macOS, Windows, Linux

Sprecher-Trennung: Wer hat was gesagt?

Vom Audio-File zum strukturierten Meeting-Protokoll

Wann lokale KI an ihre Grenzen kommt

Häufige Fragen

Quellen & Referenzen

Warum Cloud-Transkription 2026 ein Datenschutzproblem ist

Wer Otter, Fireflies, Tactiq oder Microsoft Copilot Recap nutzt, schickt seine Meeting-Audios an einen US-Server. Was dort passiert, hängt vom Vertrag ab, und vom guten Willen des Anbieters. Die meisten Anbieter behalten sich in den AGB explizit das Recht vor, Audiomitschnitte zum Training eigener Modelle zu verwenden. Selbst wenn das per Enterprise-Vertrag ausgeschlossen ist, bleibt das Risiko, dass sensible Geschäftsgespräche, Personalentscheidungen oder Kundeninterna auf Servern liegen, die DSGVO-rechtlich nur über umständliche Standardvertragsklauseln und Subprozessor-Listen abgesichert sind.

Für den Mittelstand wird das 2026 zum konkreten Compliance-Problem. Wer Personalgespräche, Strategie-Workshops oder Kundeninterviews automatisiert transkribieren lässt, verarbeitet personenbezogene Daten im Sinne der DSGVO. Das verlangt eine dokumentierte Rechtsgrundlage, ein Verzeichnis der Verarbeitungstätigkeiten und in vielen Fällen eine Datenschutz-Folgenabschätzung. Beim Cloud-Tool kommt der Auftragsverarbeitungsvertrag obendrauf, samt Prüfung der Subprozessor-Kette. Beim lokalen Modell auf eurem eigenen Rechner entfällt der gesamte Vertragsaufwand, weil die Daten das Gerät nie verlassen.

Dazu kommt das Kostenargument. Otter Business kostet 2026 rund zwanzig US-Dollar pro Nutzer und Monat, Fireflies Pro etwa achtzehn Euro, MS Copilot mit Recap-Funktion etwa dreißig Euro Aufpreis. Bei zehn Mitarbeitern sind das zwischen 2.000 und 3.600 Euro pro Jahr, für eine Funktion, die ein gut konfiguriertes Open-Source-Modell auf dem Mitarbeiter-Laptop ohne laufende Gebühren erledigt.

Welche Open-Source-Modelle 2026 wirklich funktionieren

Drei Modellfamilien dominieren 2026 den Open-Source-Markt für Speech-to-Text. Whisper von OpenAI, im September 2022 als Open-Source-Release veröffentlicht und seitdem in mehreren Generationen weiterentwickelt, bleibt der De-facto-Standard. Multilingual mit über 99 Sprachen, robust gegenüber Hintergrundgeräuschen, hervorragend bei deutscher Geschäftssprache. Verfügbar in fünf Größen von tiny (39 Megabyte) bis large-v3 (3 Gigabyte). Für deutsche Meetings auf einem Apple-Silicon-Mac liefert das medium-Modell (1,5 GB) in der Praxis das beste Verhältnis von Qualität zu Geschwindigkeit.

Faster-Whisper, eine Implementierung auf Basis der CTranslate2-Bibliothek, beschleunigt Whisper-Inferenz um den Faktor vier bei gleicher Genauigkeit. Ein zweistündiges Meeting transkribiert auf einem M2-MacBook mit dem medium-Modell in etwa zehn bis fünfzehn Minuten. whisper.cpp von Georgi Gerganov geht denselben Optimierungsweg auf C++-Ebene und läuft besonders effizient auf Apple Silicon, weil es Metal-Beschleunigung nutzt. Beide sind frei zugänglich, beide brauchen außer einem Terminal kein Setup.

Für anspruchsvollere Workflows gibt es WhisperX, das Whisper mit Speaker-Diarization (Sprechertrennung) kombiniert, und NVIDIA Parakeet TDT 1.1B, ein noch jüngeres Modell, das auf englischsprachigem Material teilweise bessere Word-Error-Rates erreicht, aber im Deutschen Whisper nicht schlägt. Wer mehrsprachige Meetings transkribiert, bleibt bei Whisper.

Praxis-Tipp: Für deutschsprachige Mittelstands-Meetings reicht das Whisper-medium-Modell (1,5 GB) auf einem M1- oder M2-Mac vollständig aus. Das large-v3-Modell bringt im B2B-Geschäftsdeutsch nur marginale Genauigkeitsgewinne, braucht aber 6 GB RAM mehr und ist drei- bis viermal langsamer.

Hardware-Anforderungen: Was muss euer Mac oder PC können?

Die gute Nachricht: lokale Transkription läuft 2026 auf praktisch jedem Geschäftsgerät der letzten drei Jahre. Konkrete Mindestanforderungen für entspannten Alltag: auf macOS ein Apple-Silicon-Chip ab M1 mit 16 Gigabyte unified Memory. Der M1 mit 8 GB schafft Whisper-small und -medium, wird aber bei langen Audiofiles knapp. Apple-Silicon-Geräte profitieren stark von der Metal-Performance-Beschleunigung in whisper.cpp.

Auf Windows und Linux entscheidet die GPU. Ein NVIDIA-RTX-Chip ab Generation 30 mit 8 GB VRAM transkribiert sehr flott. Ohne dedizierte GPU geht es trotzdem, dauert aber drei- bis fünfmal so lang, eine Stunde Audio braucht dann eher zwanzig statt fünf Minuten Rechenzeit. AMD-GPUs werden 2026 in vielen Whisper-Implementierungen via ROCm unterstützt, sind aber noch weniger gut optimiert als NVIDIA-CUDA-Pfade.

Ein häufig unterschätzter Faktor ist der Storage. Wer regelmäßig zwei- oder dreistündige Meetings transkribiert, sammelt Audiofiles in der Größenordnung von einigen Hundert Megabyte pro Termin. Mindestens 50 GB freier SSD-Speicher sollten verfügbar bleiben, sonst wird der Workflow zäh. Externe USB-Festplatten reichen für die Archivierung, aber Whisper-Inferenz selbst sollte auf der internen SSD laufen.

Lokale KI ist 2026 keine Bastelei mehr. Das Whisper-medium-Modell verarbeitet ein zweistündiges Geschäftsmeeting in der Zeit, die ihr für einen Kaffee braucht, und liefert eine Transkription, die einer mittelmäßigen menschlichen Stenografin Konkurrenz macht. Wer das einmal aufgesetzt hat, fragt sich, warum überhaupt jemand seine Geschäftsaudios in eine fremde Cloud hochlädt.— Arno Hoffrichter, CTO Collective Brain

5-Minuten-Setup: Whisper lokal auf macOS, Windows, Linux

Der einfachste Einstieg auf macOS ist die App MacWhisper von Jordi Bruin (jordibruin.com). Kostenfreie Variante mit den kleineren Modellen tiny, base und small, Pro-Version für 60 Euro einmalig mit medium und large-v3. Drag-and-drop-fähig, native macOS-UI, lokale Verarbeitung garantiert. Wer den Pro-Preis sparen will, lädt die large-v3-Modelle separat in den MacWhisper-Modellordner.

Für eine reine Open-Source-Lösung auf macOS oder Linux installiert ihr whisper.cpp direkt aus dem GitHub-Repository. Drei Befehle im Terminal: git clone github.com/ggerganov/whisper.cpp, dann make zum Kompilieren, dann bash ./models/download-ggml-model.sh medium für das Modell. Transkription startet mit ./main -m models/ggml-medium.bin -f euer-audio.wav -l de -otxt. Output landet als Klartext-Datei im selben Ordner.

Auf Windows ist Subtitle Edit (Niels-Mikkelsens Free-Tool, nikse.dk/subtitleedit) der pragmatischste Einstieg. Hat Whisper integriert, GUI auf Deutsch, läuft komplett lokal. Alternativ WhisperDesktop von Konstantin Const (Const-me/Whisper), das DirectX-12-Beschleunigung nutzt und Whisper-large in unter Echtzeit transkribiert.

Für Profi-Workflows mit Python ist Faster-Whisper die Wahl. Installation über pip install faster-whisper, Modell laden mit drei Zeilen Python, GPU-Beschleunigung automatisch. Wer regelmäßig viele Meetings batchweise verarbeiten will, baut sich um Faster-Whisper in einer Stunde eine eigene CLI mit Glob-Pattern und Output-Templating.

Was das konkret bedeutet: Auf einem MacBook reicht das Herunterladen von MacWhisper und einer Modell-Datei aus, um in fünf Minuten startklar zu sein. Wer ein zentrales Transkriptions-System für mehrere Mitarbeiter aufsetzt, baut auf Faster-Whisper plus einer einfachen Web-UI wie Whishper oder Subgen, gehostet auf einem alten Bürorechner mit GPU.

Sprecher-Trennung: Wer hat was gesagt?

Eine reine Transkription liefert einen einzigen Textblock. Für brauchbare Meeting-Protokolle braucht ihr Sprecher-Trennung, also die Information, welcher Teilnehmer wann welchen Satz gesprochen hat. Diese Funktion heißt im Fachjargon Diarization und ist die zweite Säule eines vollwertigen Transkriptions-Setups.

Das ausgereifteste Tool 2026 ist pyannote.audio in Kombination mit Whisper. Beide Modelle laufen lokal, beide sind open-source. Die Integration übernimmt WhisperX (m-bain/whisperX), das Whisper-Transkription und Pyannote-Diarization in einer Pipeline verbindet. Output sieht aus wie ein klassisches Meeting-Protokoll: jede Aussage mit Zeitstempel und Sprecher-Label („Sprecher 1: …“, „Sprecher 2: …“).

Die Genauigkeit der Diarization hängt stark von der Aufnahmequalität ab. Eingebaute Notebook-Mikrofone in lauter Umgebung produzieren oft Verwechslungen zwischen ähnlich klingenden Stimmen. Wer regelmäßig Meeting-Protokolle erstellt, investiert die fünfzig bis hundert Euro für ein USB-Konferenzmikrofon, die Trefferquote der Sprecher-Trennung springt damit von siebzig auf über neunzig Prozent.

Vom Audio-File zum strukturierten Meeting-Protokoll

Eine rohe Transkription ist noch kein Protokoll. Sie ist sieben Seiten Fließtext, in denen wichtige Entscheidungen, Aufgaben und Termine im Nebensatz untergehen. Den Schritt von Transkript zu strukturiertem Protokoll übernimmt 2026 ein zweites lokales KI-Modell, typischerweise ein Sprachmodell wie Llama 3.3 70B oder Mistral Small 3, beide quelloffen und auf einem Mac-Studio oder PC mit 32-GB-GPU lauffähig.

Workflow in der Praxis: ein einfacher Shell-Skript verkettet Whisper-Transkription und Llama-Zusammenfassung. Audio rein, Markdown raus. Mit einem klaren Prompt extrahiert Llama Teilnehmer, Tagesordnung, Entscheidungen, offene Aufgaben mit Verantwortlichen und nächste Schritte. Das Ergebnis landet in Obsidian, Notion-Local-Folder oder direkt im internen Wiki. Auch hier verlässt kein Datum das Firmennetzwerk.

Wer keinen GPU-Workstation hat, fährt eine pragmatische Hybrid-Variante: lokale Transkription via Whisper, anschließende Strukturierung via Mistral oder Anthropic Claude über die API. Damit landet zwar die Text-Zusammenfassung kurzzeitig bei einem Anbieter, nicht aber der ursprüngliche Audiomitschnitt. Für viele DSGVO-Audit-Konstellationen ist dieser reduzierte Datenfluss akzeptabel, weil keine biometrischen Stimmaufzeichnungen mehr übermittelt werden.

Wann lokale KI an ihre Grenzen kommt

Ehrlich bleiben: lokale Transkription ist 2026 noch nicht perfekt. Drei Grenzen sollten Mittelständler kennen. Erstens, sehr starke Dialekte. Schwäbisch, Berliner Dialekt oder breites Bayerisch produzieren auch im medium- und large-Modell deutlich höhere Fehlerquoten als Hochdeutsch. Zweitens, Fachbegriffe mit englischer Schreibweise mitten in deutschen Sätzen, typisch für IT-Meetings, werden gelegentlich phonetisch eingedeutscht. „API-Endpoint“ wird zu „Apie-Endpoint“, „Refactoring“ zu „Refektoring“. Drittens, schlechte Aufnahmequalität, weit entfernte Sprecher und stark hallige Räume verschlechtern alles.

Wer mit diesen Grenzen leben kann, gewinnt 2026 eine produktivitätssteigernde Funktion ohne laufende Kosten und ohne Datenschutzrisiko. Wer absolute Wort-zu-Wort-Genauigkeit für juristisch verwertbare Mitschnitte braucht, wird auch 2026 noch eine professionelle Schreibkanzlei beauftragen müssen oder ein spezialisiertes Cloud-Tool wie Verbit mit auditierbarer ISO-Zertifizierung einsetzen.

Das Wichtigste in zwei Sätzen: Lokale KI-Transkription 2026 ist kein Forschungsprojekt mehr, sondern Standard-Werkzeug für jeden Mittelständler mit aktuellem Notebook. Wer Whisper plus eine bequeme Oberfläche wie MacWhisper einsetzt, transkribiert Meetings, Sprachmemos und Kundeninterviews ohne Cloud, ohne monatliche Gebühr und ohne DSGVO-Kopfschmerzen.

Häufige Fragen

Brauche ich technisches Vorwissen, um Whisper lokal zu installieren?

Auf macOS: nein. MacWhisper ist Drag-and-drop, die Pro-Lizenz kostet 60 Euro einmalig, die Free-Variante reicht für gelegentliche Sprachmemos. Auf Windows ist Subtitle Edit ähnlich einsteigerfreundlich. Wer Whisper über die Kommandozeile installieren will, sollte mit Terminal-Grundbefehlen vertraut sein, das Setup ist machbar, dauert aber zehn statt zwei Minuten.

Wie viel RAM muss mein Notebook für Whisper haben?

Für das small-Modell genügen 8 GB Arbeitsspeicher, das medium-Modell läuft komfortabel ab 16 GB. Das large-v3-Modell braucht mindestens 16 GB RAM oder 10 GB VRAM auf einer GPU. Auf Apple-Silicon-Macs ist der unified Memory besonders effizient, weil CPU und Neural-Engine sich denselben Speicher teilen.

Funktioniert lokale Transkription auch bei mehreren Sprechern?

Reine Whisper-Transkription liefert nur einen einzigen Textblock ohne Sprecher-Labels. Für „Wer hat was gesagt?“ braucht ihr WhisperX oder pyannote.audio in Kombination mit Whisper. Die Diarization arbeitet 2026 mit etwa 85 bis 92 Prozent Trefferquote bei guter Aufnahmequalität. Ein USB-Konferenzmikrofon verbessert die Sprecher-Trennung deutlich.

Ist lokale Transkription DSGVO-konform?

Ja, weil die Audiodatei das Gerät nie verlässt. Es gibt keinen externen Auftragsverarbeiter, keine Übermittlung in Drittländer, keine Subprozessor-Kette. Trotzdem gilt die DSGVO weiterhin für die Speicherung der Aufnahmen und Transkripte auf dem eigenen System, Zugriffsrechte, Aufbewahrungsfristen und Lösch-Konzepte gehören weiter ins Verarbeitungsverzeichnis. Nur der Transport-Aufwand fällt weg.

Was kostet lokale Transkription über fünf Jahre im Vergleich zur Cloud?

Bei zehn Mitarbeitern und einem typischen Cloud-Abo wie Otter Business: rund 2.000 Euro pro Jahr, also 10.000 Euro über fünf Jahre. Lokale Variante: maximal die einmaligen 60 Euro MacWhisper-Pro pro Mitarbeiter, also 600 Euro. Ersparnis 9.400 Euro über fünf Jahre, plus Wegfall des Auftragsverarbeitungsvertrags und Drittland-Übermittlungs-Risikos.

Welches Tool empfehlt ihr für den schnellen Einstieg?

Auf macOS: MacWhisper Free für Sprachmemos und kurze Calls, Pro-Version für regelmäßige Meeting-Workflows mit dem large-Modell. Auf Windows: Subtitle Edit für Einsteiger, WhisperDesktop für Performance. Für serverbasierte Team-Lösungen: Faster-Whisper plus eine Web-UI wie Whishper auf einem alten Bürorechner mit NVIDIA-GPU.

Quellen & Referenzen

Arno Hoffrichter

CTO, Collective Brain GmbH · Hamburg

Arno Hoffrichter ist CTO der Collective Brain GmbH in Hamburg. Er führt seit über zwanzig Jahren technische Projekte für mittelständische Unternehmen, von Hochleistungs-Webplattformen über Performance-Engineering bis zu BAFA-geförderten KI-Integrationen im B2B-Mittelstand. Schwerpunkt: stabile Web-Architekturen, technisches SEO und KI-gestützte Produktivität ohne Cloud-Abhängigkeit.

LinkedIn Beratung anfragen

Arno Hoffrichter

Arno Hoffrichter ist CTO bei der Collective Brain GmbH in Hamburg. Als Technologieexperte mit 20 Jahren Erfahrung in der Web- und Online-Entwicklung ist er der treibende technische Kopf hinter Collective Brain. Durch das geschickte Zusammenspiel von Künstlicher Intelligenz, modernen Tools und seinem Team entwickelt Arno kreative Lösungen, die zu mehr Sichtbarkeit und Erfolg führen.

Google I/O 2026: AI Mode wird Standard – was das neue Suchfeld für SEO im Mittelstand bedeutet

Google hat auf der I/O 2026 am 19. Mai den größten Suchfeld-Umbau seit über 25 Jahren angekündigt. AI Mode ist jetzt weltweit Standard, läuft auf Gemini 3.5 Flash und akzeptiert Bilder, Dateien und Videos als Input. Für deutsche Mittelständler kippt damit eine...

2,59 Billionen für KI. Google Marketing Live zeigt heute Abend wofür. Mittelstand zahlt.

» Brainwave Mittwochs-Ausgabe · 20. Mai 2026 Florian Wessling kommentiert kritisch die KI-Entwicklung. Zweimal die Woche, ohne Filter. Heute Abend, 17:45 deutscher Zeit, geht in Mountain View eine Bühne hoch. Google Marketing Live 2026. Ein Tag, nachdem Gartner eine...

ALLE BLOGPOSTS

Meeting-Notizen ohne Cloud: So transkribiert KI eure Gespräche lokal und kostenlos

17. Mai 2026

Warum Cloud-Transkription 2026 ein Datenschutzproblem ist

Welche Open-Source-Modelle 2026 wirklich funktionieren

Hardware-Anforderungen: Was muss euer Mac oder PC können?

5-Minuten-Setup: Whisper lokal auf macOS, Windows, Linux

Sprecher-Trennung: Wer hat was gesagt?

Vom Audio-File zum strukturierten Meeting-Protokoll

Wann lokale KI an ihre Grenzen kommt

Häufige Fragen

Quellen & Referenzen

Arno Hoffrichter

Google I/O 2026: AI Mode wird Standard – was das neue Suchfeld für SEO im Mittelstand bedeutet

2,59 Billionen für KI. Google Marketing Live zeigt heute Abend wofür. Mittel­stand zahlt.

2,59 Billionen für KI. Google Marketing Live zeigt heute Abend wofür. Mittelstand zahlt.