Alle Episoden
05
35 min

Text-to-Speech in der Praxis – mit Sabine Kunert

Von ElevenLabs über Delphi.AI bis Google AI Studio: Wie Text-to-Speech die Arbeit am Pferd verändern kann – und warum Barrierefreiheit dabei ein Schlüsselthema ist.

Text-to-SpeechElevenLabsBarrierefreiheitDelphi.AIInterviewSprachgenerierung

Externer Inhalt blockiert

Der Podcast-Player wird von Podigee bereitgestellt. Bitte akzeptiere externe Inhalte in den Cookie-Einstellungen, um den Player zu laden.

Das nimmst du mit

  • Text-to-Speech ermöglicht individuelle Audio-Anleitungen für Pferdebesitzer – hands-free am Tier statt Papier in der Hand.
  • ElevenLabs ist das marktführende Tool für Sprachgenerierung und Stimmklonen, mittlerweile auch mit kostenloser Chatbot-Funktion über ElevenAI.
  • Barrierefreiheit wird zum Standard: KI-gestützte Vorlesefunktionen auf Webseiten machen Inhalte für alle zugänglich.
  • Delphi.AI bietet die Möglichkeit, einen Video-Avatar mit geklonter Stimme und eigenen Trainingsdaten hinter eine Paywall zu setzen.
  • Die Zukunft gehört der Sprache – neue Geräte ohne Display und KI-Emotionserkennung zeigen, wohin sich die Interaktion entwickelt.

Die andere Richtung: Vom Text zur Sprache

In der vorherigen Folge ging es um Speech-to-Text – also darum, gesprochene Sprache in Text umzuwandeln und damit weiterzuarbeiten. Jetzt drehen wir das Ganze um. Text-to-Speech bedeutet: Aus einem geschriebenen Text wird gesprochene Sprache generiert. Und das auf einem Qualitätsniveau, das vor zwei Jahren noch undenkbar war.

Was technisch im Hintergrund passiert, auch wenn es sich längst nicht mehr so anfühlt: Die Spracheingabe wird in Text umgewandelt, der Text wird verarbeitet und als Ausgabe generiert, und dann wieder in Sprache ausgegeben. Das geht mittlerweile so schnell und simultan, dass der Übergang nicht mehr wahrnehmbar ist. Eine echte End-to-End-Sprachlösung – also Sprache rein, Sprache raus ohne Textumweg – gibt es technisch gesehen noch nicht. Aber die Erfahrung fühlt sich bereits so an.

Hands-free am Pferd: Audio-Anleitungen für die Therapie

Sabine Kunert bringt als Tierheilpraktikerin mit Schwerpunkt auf Shiatsu, Akupunktur und Osteopathie einen besonders greifbaren Anwendungsfall mit. Nach der Behandlung steht sie regelmäßig vor der Herausforderung: Wie gibt man dem Pferdebesitzer ein individuelles Therapiekonzept an die Hand, das im Stallalltag auch wirklich umsetzbar ist?

Die Idee: Statt eines ausgedruckten Plans eine personalisierte Audio-Anleitung. Basierend auf dem ausgearbeiteten Therapiekonzept entsteht eine Schritt-für-Schritt-Anleitung für die Ohren. In der eigenen Stimme – oder einer anderen angenehmen Stimme – wird erklärt, welcher Meridian behandelt wird, welche Akupressurpunkte gedrückt werden müssen, wie die Technik funktioniert.

Das Tolle daran: Du kannst es wirklich individuell zusammenstellen. Der eine hat nur eine Viertelstunde Zeit, der andere eine halbe Stunde – dann passt du es an. Und wenn sich was im Konzept ändert, lässt du es einfach neu durchlaufen.

Der entscheidende Vorteil: Die Besitzer können hands-free arbeiten. Kopfhörer auf, vielleicht sogar mit ruhiger Hintergrundmusik unterlegt, und dabei wirklich beim Pferd sein. Zwischendrin stellt die Anleitung gezielte Fragen: Was fühlst du gerade? Wie reagiert dein Pferd? Kaut es ab? Senkt es den Kopf? So entsteht ein geführtes Arbeiten, das deutlich mehr Bewusstsein schafft als ein Zettel in der Jackentasche.

Und wie bei den Chatbots von Kernkompetenz Pferd gilt auch hier: Die Grundlage sind definierte, geprüfte Trainingsdaten – kein wahlloses Internetwissen. Die KI bringt die Sprachqualität und Flexibilität, die Fachkompetenz kommt von der Therapeutin.

ElevenLabs: Das Aushängeschild der Sprachgenerierung

Wenn es um Text-to-Speech geht, führt aktuell kein Weg an ElevenLabs vorbei. Das Tool ist marktführend in der Sprachgenerierung und beim Stimmklonen – und die Qualität ist mit Abstand die beste auf dem Markt.

ElevenLabs kann aus einem Text gesprochene Sprache erzeugen, Stimmen klonen und sogar Video-Avatare mit geklonter Stimme erstellen. Die Ergebnisse klingen nicht mehr nach Computer, sondern nach einem echten Sprecher mit Emotionen, Pausen und natürlichem Sprachfluss.

ElevenAI: Chatbot mit Sprachkompetenz

Besonders spannend ist die neue Erweiterung ElevenAI, die mittlerweile in einer kostenlosen Beta-Version verfügbar ist. Im Kern ist es ein Chatbot, der die Sprachkompetenzen von ElevenLabs mitbringt – also nicht nur Text ausgibt, sondern auch sprechen kann.

Das Besondere: Über MCP-Server (Model Context Protocol) lässt sich dieser Chatbot mit anderen Tools und Anwendungen verknüpfen. Per Spracheingabe könntest du also sagen: „Schau mal nach meinen Verfügbarkeiten nächste Woche. Ich möchte mit Sabine eine neue Podcast-Folge aufnehmen. Schick ihr eine E-Mail mit den Vorschlägen, wann es bei mir passt." Der Agent greift dann auf den Kalender und das E-Mail-Tool zu und erledigt das eigenständig.

Das ist nicht nur nach extern ein Fortschritt, sondern vor allem intern eine echte Erleichterung im Arbeitsalltag – ein persönlicher Assistent, der auf Zuruf Aufgaben übernimmt.

Die eigene Siri für die Pferdewelt?

Wenn man Text-to-Speech konsequent weiterdenkt, landet man schnell bei einer eigenen Sprachassistentin – sozusagen einer Siri oder Alexa, trainiert auf dem eigenen Fachwissen. Für Kernkompetenz Pferd hieße das: Sämtliche Kursinhalte als Trainingsdaten einspeisen und das System so aufsetzen, dass man es fragen kann – „Was weißt du zum Thema Hufrehe?" – und eine fundierte, gesprochene Antwort bekommt.

Für interne Zwecke ist das schon heute sehr gut vorstellbar. Für den externen Einsatz – also das Bereitstellen solcher Systeme an Tierbesitzer – gibt es aktuell noch viele offene Fragen: EU-Haftung, Falschinformation, Fehldiagnosen, Datenschutz. Und als Tierärztin darf Veronika ohnehin keine Ferndiagnose stellen. Die Technologie ist also da, aber der rechtliche und ethische Rahmen muss noch mitwachsen.

Delphi.AI: Wissen monetarisieren mit Video-Avatar

Ein Tool, das in der KI-Community gerade viel Aufmerksamkeit bekommt, ist Delphi.AI. Die Plattform bringt alles zusammen, worüber in dieser Folge gesprochen wird: Du erstellst einen Video-Avatar, klonst deine Stimme, lädst deine Trainingsdaten hoch – und kannst das Ganze hinter eine Paywall setzen.

Deine Kunden oder deine Zielgruppe können dann mit diesem Avatar sprechen, auf Basis deines Wissens. Verfügbar als Monatsabo oder Einmalzahlung. Für Bereiche wie Persönlichkeitsentwicklung, Mindset-Arbeit oder Business-Coaching wird das bereits aktiv genutzt.

Im Pferdebereich ist die Skepsis allerdings berechtigt. Die Mimik eines Avatars spiegelt nicht wider, wer du wirklich bist. In einer Branche, die so stark von Vertrauen und persönlichem Kontakt lebt, ist ein digitaler Stellvertreter noch schwer vermittelbar. Die Akzeptanz wird Zeit brauchen – aber wie bei so vielen Technologien der letzten Jahre gilt wahrscheinlich: Was heute undenkbar erscheint, ist in einem halben Jahr Normalität.

Barrierefreiheit: Mehr als ein Nebeneffekt

Ein Aspekt, der beim Thema Text-to-Speech schnell in den Hintergrund gerät, aber enorm wichtig ist: Barrierefreiheit. Für Menschen mit Sehbehinderung ist es bereits weltverändernd, sich Webseiten vorlesen lassen zu können. Und die Qualität wird immer besser.

Es gibt mittlerweile Tools, die sich auf der eigenen Webseite installieren lassen und die Inhalte in hochwertiger Sprachqualität ausgeben. Noch sind viele davon kostenpflichtig, aber die Entwicklung geht klar in Richtung Standardfunktion – sei es über die Browser selbst oder über die großen Tool-Anbieter. In absehbarer Zeit wird man mit einem Klick jede Webseite vorlesen lassen können und per Sprache auf der Seite navigieren.

Auch im Alltag zeigt sich der Nutzen: Wer viel unterwegs ist – zum Stall, zwischen Terminen, im Auto – kann sich Inhalte anhören statt zu lesen. Fachliteratur, Studien, vorbereitete Notizen. Tools wie Notebook LM ermöglichen es, Inhalte daheim am Browser vorzubereiten und unterwegs auf dem Handy anzuhören.

Sprache ist die Zukunft der KI-Interaktion

OpenAI arbeitet an einem eigenen Gerät – kein Wearable, eher eine kleine Box oder ein Stift für die Hosentasche. Das Besondere: Es soll kein Display haben und keinerlei Touchscreen-Eingabe. Die Bedienung erfolgt komplett über Sprache.

Das Signal ist deutlich: Die Zukunft der KI-Interaktion wird nicht mehr über Tastatur und Bildschirm laufen. Sprache wird das primäre Interface. Zusammen mit Entwicklungen wie KI-Brillen, die auch das Visuelle aufnehmen, und der immer besser werdenden Emotionserkennung bei Sprachmodellen entsteht eine ganz neue Art der Mensch-Maschine-Kommunikation.

Die Sprachmodelle können mittlerweile empathisch formulieren und empathisch sprechen. Das ist keine monotone Computerstimme mehr, sondern ein Gegenüber, das auf emotionale Signale reagiert. Für den therapeutischen Kontext – ob beim Menschen oder beim Tier – eröffnet das Möglichkeiten, die wir gerade erst anfangen zu erfassen.

Google AI Studio: Ein Podcast auf Knopfdruck

Zum Abschluss ein Experiment, das zeigt, wie weit die Technologie schon ist: Über Google AI Studio und die Funktion „Generate Media" lassen sich aus Textschnipseln fertige Podcast-Episoden generieren. Zwei Sprecher formatieren, emotionale Sprache definieren, Fachtext eingeben, auf den Knopf drücken – und es kommt eine fertige Audiodatei heraus.

Faszinierend? Absolut. Ersetzt das den echten Dialog? Definitiv nicht. Aber für schnelle Tipps, aktuelle Fallbesprechungen oder kurze Informationshäppchen an die Zielgruppe könnte es ein ergänzendes Format sein – vorausgesetzt, die Akzeptanz wächst.

Transparenz bleibt dabei der Schlüssel: Wenn irgendwann mal eine KI-generierte Folge kommen sollte, wird das klar kommuniziert. Bis dahin bleibt es beim echten Gespräch – und das macht auch deutlich mehr Spaß.