Alle Episoden
11
25 min

Hörbuch mit KI-Stimme produzieren – ElevenLabs im Praxistest

Dunja Lang hat ihr Fachbuch mit ElevenLabs als Hörbuch vertont – mit geklonter Stimme, kapitelweise produziert. Was dabei funktioniert hat und wo die Stolperfallen liegen.

ElevenLabsVoice CloningHörbuchInterviewE-BookLessons Learned

Externer Inhalt blockiert

Der Podcast-Player wird von Podigee bereitgestellt. Bitte akzeptiere externe Inhalte in den Cookie-Einstellungen, um den Player zu laden.

Das nimmst du mit

  • ElevenLabs ermöglicht Voice Cloning in überzeugender Qualität – selbst bei markanten Stimmen mit leichtem Dialekt erkennen Testpersonen keinen Unterschied.
  • Pausen, Betonungen und Intonation muss man der KI manuell im Text vorgeben – automatisch klingt es zwar gut, aber nicht authentisch.
  • Abkürzungen wie z.B. oder etc. werden von der KI-Stimme oft falsch oder gar nicht erkannt und müssen vorher im Text ausgeschrieben werden.
  • Der Zeitaufwand für ein KI-vertontes Hörbuch ist überraschend hoch – durch Nachbearbeitung und Korrekturen kommt man auf ähnliche Stunden wie beim Selbsteinsprechen.
  • KI macht vieles möglich, aber nichts davon ist ein Knopfdruck – Entscheidungsstärke und Fokus sind genauso wichtig wie das richtige Tool.

Rückblick: Vom Fachbuch zum Medienpaket

Diese Folge ist der zweite Teil des Interviews mit Mentalcoach Dunja Lang. In Teil 1 ging es darum, wie sie ihr 250-Seiten-Fachbuch „Mental Grand Prix" mit KI-Unterstützung über Gemini geschrieben hat – mit eigenem Expertenwissen als Grundlage und der KI als Strukturhilfe.

In diesem Teil wird es noch praktischer: Dunja hat das Buch nicht nur als Print und E-Book veröffentlicht, sondern auch als vollständiges Hörbuch produziert. Und zwar nicht im Tonstudio, sondern mit einer KI-geklonten Version ihrer eigenen Stimme über ElevenLabs.

Warum ein Hörbuch? Die Realität im Pferdealltag

Die Idee zum Hörbuch kam direkt aus dem Feedback der Zielgruppe. Reiterinnen und Reiter sind zeitlich extrem eingespannt: Anfahrt zum Stall, Pferd versorgen, reiten, zurückfahren – das dauert schnell zwei bis drei Stunden. Dazu ein normaler Job, Wochenenden auf Turnieren, Haushalt. Wann soll da noch Zeit zum Lesen sein?

Viele haben explizit nach einer Audio-Version gefragt. Und genau das hat Dunja geliefert – als kostenlosen Bonus zum Buch, kapitelweise navigierbar über eine Hörbuch-App.

Print, E-Book und Audio verknüpft

Die Idee geht über ein reines Hörbuch hinaus. Im gedruckten Buch finden sich QR-Codes, die zu Videotrainings und ergänzenden Materialien führen. Die klassische Printwelt wird mit digitalen Formaten verknüpft – so können Leserinnen flexibel zwischen Lesen, Hören und Schauen wechseln.

Wer Kapitel 12 im Auto hört, kann Kapitel 13 abends im Buch lesen und Kapitel 14 wieder als Audio abspielen. Das Hörbuch merkt sich die Position, und das Inhaltsverzeichnis ermöglicht gezieltes Springen – etwa direkt zum Thema Traumata oder Sporthypnose.

Welche App für das Hörbuch?

Eine wichtige Frage für die Praxis: Wo wird das Hörbuch abgespielt? Audible und Spotify sind geschlossene Systeme – die wollen ihre eigenen Inhalte verkaufen und erlauben kein Hochladen eigener Dateien.

Stattdessen funktioniert das über offene Hörbuch-Apps:

  • Apple Books: Für Apple-Nutzer am komfortabelsten – einfach draufklicken und loslegen
  • Audibly: Ein Audiobook-Player, der auch auf dem PC funktioniert
  • Smart Audio und vergleichbare Apps für Android

Dunja liefert in der Auslieferungs-Mail konkrete App-Empfehlungen mit – für jeden Anwendungsfall eine Lösung.

ElevenLabs: Voice Cloning in der Praxis

Die Entscheidung für KI statt Tonstudio war pragmatisch. Andere Buchautoren berichten von drei Tagen Studioaufnahme für ein Hörbuch. Das kostet Zeit, Energie und Geld – und bei einem kostenlosen Bonus zum Buch ist das wirtschaftlich schwer zu rechtfertigen.

Also: ElevenLabs. Die Plattform ermöglicht das Klonen der eigenen Stimme, die dann beliebige Texte vorlesen kann.

Das Training der KI-Stimme

Dunja hat die KI-Stimme gezielt für den Vorlesezweck trainiert. Das ist ein wichtiger Punkt: Eine Stimme klingt unterschiedlich, je nachdem ob jemand erklärt, erzählt, coacht oder eine Hypnose leitet. Für das Hörbuch brauchte es die „Erklärstimme" – engagiert, fließend, mit der Begeisterung, die auch in Webinaren rüberkommt.

Dafür hat Dunja Audiomaterial aus ihren Webinaren und Kursen als Trainingsdaten verwendet. Nicht einfach irgendwelche Aufnahmen, sondern gezielt solche, in denen sie mit genau dieser Energie und Intonation spricht.

Der Blindtest

Ein überzeugender Praxistest: Dunja hat ein bis zwei Kapitel selbst eingesprochen und parallel einige Kapitel von der KI produzieren lassen. Dann hat sie ihrem Mann beide Versionen vorgespielt – ohne zu verraten, welche welche ist. Er hat teilweise auf das falsche Kapitel getippt.

Nachdem er dann teilweise aufs Falsche getippt hat, habe ich gedacht: Okay, so schlecht ist es nicht. Kann man machen.

Auch im Podcast ist eine 30-Sekunden-Hörprobe zu hören. Die KI-Stimme klingt natürlich, fließend und hat die charakteristischen Merkmale von Dunjas Sprechweise übernommen – inklusive des leichten Dialekts.

Die Stolperfallen beim KI-Hörbuch

So überzeugend das Ergebnis klingt – der Weg dahin war alles andere als ein Knopfdruck.

Pausen und Betonungen

Was einen menschlichen Vorleser ausmacht, sind nicht die Worte selbst, sondern wo Pausen gesetzt werden, welche Silben betont werden und wie der Rhythmus fließt. All das muss der KI manuell mitgegeben werden – direkt im Text, über spezielle Markierungen in ElevenLabs.

Ohne diese Anpassungen klingt die Stimme zwar gut, aber nicht authentisch. Es fehlt das Menschliche.

Abkürzungen und Sonderzeichen

Ein besonders zeitfressendes Problem: Abkürzungen. Wo im Text „z.B." steht, hat die KI-Stimme das teilweise als Buchstabenfolge vorgelesen, teilweise korrekt als „zum Beispiel" erkannt – aber eben nicht zuverlässig.

Die Lösung: Alle Abkürzungen im gesamten Buchtext manuell ausschreiben. Per Suchen und Ersetzen zwar machbar, aber bei einem 250-Seiten-Buch immer noch aufwändig. Und einige Stellen wurden übersehen – so sind ein bis zwei kleine Bugs im fertigen Hörbuch geblieben.

Kapitelweises Arbeiten

Dunja hat kapitelweise produziert, nicht das gesamte Buch am Stück. Das hat zwei Gründe: Wenn ein Abschnitt neu generiert werden muss, betrifft das nur einen kleinen Teil statt eines ganzen Kapitels. Und die Kosten bei ElevenLabs werden nach Tokens bzw. generierten Minuten berechnet – fehlerhafte Passagen nochmal zu generieren kostet jedes Mal.

Die professionelle Nachbearbeitung

Die einzelnen Kapitel-Exports aus ElevenLabs hat Dunja einem professionellen Dienstleister übergeben. Der hat die Tonqualität nachbearbeitet, alle Kapitel zusammengeschnitten und die finale M4B-Datei erstellt – das professionelle Hörbuch-Format, inklusive eingebettetem Cover und Kapitelmarkierungen.

Die Entscheidung, diesen Schritt auszulagern, war bewusst: Nach Buchproduktion, Grafikaufbereitung und KI-Stimmentraining war irgendwann der Punkt erreicht, an dem Delegieren sinnvoller war als noch eine weitere Kompetenz aufzubauen.

Lessons Learned: Fokus und Entscheidung

Die wichtigsten Erkenntnisse aus dem gesamten Projekt – Buch, E-Book und Hörbuch zusammengenommen:

KI ist Arbeit, kein Knopfdruck

Die verbreitete Vorstellung, man gibt der KI einen Auftrag und bekommt ein fertiges Produkt, ist falsch. Der Zeitaufwand für das KI-vertonte Hörbuch war durch Nachbearbeitung und Korrekturen am Ende ähnlich hoch wie beim Selbsteinsprechen. Der Unterschied: Weniger Stimmbandbelastung, dafür mehr technische Feinarbeit.

Das Meer der Möglichkeiten erfordert Entscheidungen

Mit KI gibt es plötzlich unzählige Optionen: Dieses Tool, jenes Tool, noch ein Feature, noch eine Optimierung. Genau hier liegt die Gefahr. Wer ständig weiter recherchiert und vergleicht, wird nie fertig.

Dunjas Ansatz: Eine klare Brainstorming-Phase, in der Tools getestet werden. Und dann der bewusste Schnitt – eine Entscheidung treffen und durchziehen. Wie beim Springparcours: Wer den Plan hat und am Start steht, kann nicht mehr mittendrin überlegen, ob der Wassergraben vielleicht doch keine gute Idee war.

Die 90-10-Regel statt Perfektionismus

Ein kostenloses Hörbuch als Bonus zum Buch muss nicht perfekt sein. Es muss gut sein. Pareto reicht – und in Dunjas Fall war es eher 90/10 als 80/20. Die eine Betonung, die nicht ganz sitzt, das eine „z.B.", das vielleicht durchgerutscht ist – das sind Details, die den Gesamtwert nicht schmälern.

Das Ergebnis: Drei Monate für alles

Den Buchinhalt hat Dunja in drei Monaten geschrieben, Layout und die gesamte Produktion – inklusive Hörbuch – haben weitere drei Monate gedauert. Parallel dazu lief das Coaching-Business mit Bestandskunden weiter.

Ohne KI-Unterstützung wäre dieses Tempo nicht machbar gewesen. Aber die Technologie allein hat es auch nicht getan – der entscheidende Faktor war die Kombination aus Fachwissen, klarer Struktur und der Disziplin, sich nicht im Meer der Möglichkeiten zu verlieren.