Holz-mit-KI-Kolumne: Eine Bedienungsanleitung für meinen Klon
Meine Stimme ist kräftig, eher dunkel und immer ein bisschen heiser. „Als wären deine Eltern Kettenraucher“, hat mir als Kind mal jemand gesagt. Damals hätte ich meine Stimme gern gegen eine andere getauscht. Aber das änderte sich neulich auf dem Weg in die Personalabteilung. Plötzlich schienen mir gerade diese Eigenheiten schützenswert. Bei HR erwartete mich eine Vereinbarung, mit der ich dem Handelsblatt Rechte an meiner Stimme übertrage.
Wir haben uns das gut überlegt. Es ist ein Experiment, mit dem wir das Potenzial und die Grenzen von Künstlicher Intelligenz austesten wollen. Und laut der Vereinbarung soll die Stimme ausschließlich genutzt werden, um das von mir geschriebene Handelsblatt KI-Briefing vorzulesen.
Eigentlich keine große Sache. Aber die Erfahrung als Tech-Reporterin sagt mir, dass man sich vor der Einführung einer neuen Technologie immer eine Frage stellen muss: What could possibly go wrong?
Ich war gewissermaßen drauf und dran, meine Stimme technisch von meiner Identität zu entkoppeln. Aber geht das überhaupt? Ich dachte darüber nach, wie stark ich mich mit dieser Stimme identifiziere und dass mich andere an ihrem Klang wiedererkennen. Künftig wäre aber jeder mit Zugriff auf diese Stimme in der Lage, damit Unsinn zu reden.
„Ich bin hier, um meine Seele zu verkaufen“, sagte ich unseren Personalern. Den Vergleich fand ich passend, weil ich gerade womöglich so leichtfertig wie Doktor Faust einen Deal einging, dessen Tragweite ich nicht überschauen konnte. Meine Kolleginnen von HR lachten.
Die Vereinbarung berechtigt das Handelsblatt, meine Stimme zu klonen. Dabei entsteht eine Computerstimme, die Sie sich wie eine Vorlesefunktion vorstellen können. (Nicht jede ist so schlecht wie die beim Handelsblatt, die ganz dringend ein Update braucht).
Solche Systeme wurden lange regelbasiert entwickelt. Der KI wurde sozusagen die Lautschrift beigebracht und dann konnte sie Schrift in gesprochene Sprache übersetzen. Bei diesen alten Systemen erkennt man schon beim Hören, dass die KI keine Ahnung hat, wovon sie spricht.
Mit dem Fortschritt bei generativer KI hat sich das geändert. Das bekannteste Beispiel für diese Art Künstlicher Intelligenz ist ChatGPT. Das KI-Modell hinter dem Chatbot hat unendlich viele Texte gelesen und dadurch gelernt, selbst Texte zu erzeugen. Das geht vom Bewerbungsschreiben bis zur Ballade.
Genauso können Sie sich das bei KI-Modellen für gesprochene Sprache vorstellen. Sie lernen Aussprache, Betonungen und Tonfall quasi vom Zuhören. Wenn Sie genau hinhören, werden Sie merken, dass die KI zum Teil auch erkennt, welche Passagen lustig klingen sollten.
Unser Partner Aflorithmic – der besser als Audiostack bekannt ist – bietet die Personalisierung solcher Stimm-KIs an. Dabei setzt er auf ein Modell der KI-Firma Eleven Labs und trainiert es dann mit Audiomaterial seiner Kunden weiter. In einer Probeversion haben meine Kollegen dazu einfach einen Ausschnitt aus einem Podcast bereitgestellt, den wir im März aufgenommen haben. Das Ergebnis war so authentisch, dass man sogar hörte, wie erkältet ich an dem Tag war.
Der Versuch zeigt auch, dass sich Menschen vor Raubkopien ihrer Stimmen gar nicht schützen können, sobald es Audioaufzeichnungen im Netz gibt. Zwei Synchronsprecher in den USA zum Beispiel sind fest überzeugt, dass eine KI-Firma ihre Stimmen geklaut hat.
Und bestimmt haben Sie von dem Streit zwischen dem ChatGPT-Entwickler OpenAI und Scarlett Johannsen gehört. Die Schauspielerin ist überzeugt, dass eine der Stimmen des KI-Modells GPT-4o mit voller Absicht so entwickelt wurde, dass sie ihrer zum Verwechseln ähnlich ist.
Und trotzdem ist mein Fall mit den genannten nicht vergleichbar. Es ist eben ein Unterschied, ob ein klar erkennbar KI-basierter Bot zur Erheiterung der Nutzer mit der Stimme eines Moviestars spricht. Oder ob, wie in meinem Fall, kaum noch zu unterscheiden ist, ob die echte Larissa Holzki oder mein Stimmklon Larissa_Holzki_V2 zu hören ist. Das ändert sich auch nicht dadurch, dass wir das jederzeit kennzeichnen werden.
» Lesen Sie auch: Schade, dass KI meine Mimik nicht mehr auswerten darf
Meine KI-Stimme, die wir nun für das KI-Briefing nutzen, kann Worte und Sätze lesen, die sie von mir noch nie gehört hat. Für das Training habe ich lediglich zehn Minuten lang frühere Ausgaben vorgelesen. Zu meiner Freude spricht sie auch akzentfrei Englisch und Französisch. Nur ihr Japanisch empfand der Kollege Haluka Maier-Borst als Muttersprachler leider als „altmodisch und selbst für japanische Verhältnisse hüftsteif“.
Für uns als Redaktion bietet die Technologie neue Chancen. Zum Beispiel einen Podcast zu produzieren, für dessen Aufnahme ich selbst keine Zeit habe. Aber sie stellt uns auch vor ganz neue Fragen.
So ist es in Redaktionen üblich, dass Texte der Autoren nochmal von einem spezialisierten Team bearbeitet werden, das besonders auf leicht verständliche Sprache achtet. Aber dürfen mir diese Kollegen auch Worte in den Mund legen, bevor automatisch aus meinem Text ein Podcast erzeugt wird?
Wir sind zu dem Schluss gekommen, dass wir damit in diesem Briefing viel sensibler vorgehen müssen. Wenn Sie diesen Text gerade von meiner KI-generierten Stimme vorgelesen bekommen, dann können Sie sicher sein, dass ich diesen Text genauso geschrieben oder jede Änderung freigegeben habe. Ich hoffe, Sie verstehen mich trotzdem.