Audio Branding: Warum auch künstliche Stimmen Persönlichkeit brauchen
Hamburg. Können künstliche Stimmen echt wirken? Rainer Hirt steigt ohne Umschweife ein: „Die Stimme ist eines der emotionalsten ‚Instrumente‘, die uns zur Verfügung stehen.“ Schon beim ersten Ton bilde sich jeder Mensch unwillkürlich eine Meinung, sagt er. Darüber, ob ihm eine Stimme sympathisch ist, was sie vermitteln will und ob sie eine verborgene Botschaft enthält.
Hirt hat vor knapp 20 Jahren seine Nische zwischen Musik, Design und Marke gefunden. Direkt nach dem Abschluss in Kommunikationsdesign gründete er in Konstanz die Audio-Branding-Agentur Audity, drei Jahre später mit der „Audio Branding Academy“ das erste unabhängige Institut für akustische Markenkommunikation. Heute zählt der 45-Jährige zu den renommiertesten deutschen Sounddesignern, seine Agentur konkurriert international mit Spezialisten aus den USA, Frankreich und den Niederlanden.
Audity entwickelt klangliche Markenidentitäten für Unternehmen. Zu den Kunden zählen etablierte Marken wie Miele, Festool und Swiss International Air Lines ebenso wie Newcomer wie Jobrad. Das Angebot reicht von markanten Warnsignalen und Funktionstönen über Jingles bis zur Vertonung von Produkt- und Kampagnenfilmen – zunehmend auch für den Einsatz von Chatbots im Kundensupport.
Eine der größten Herausforderungen ist über die vergangenen 20 Jahre gleich geblieben: die Wahl der richtigen Stimme. „Wir haben schon vor 20 Jahren mit Stimmen gearbeitet, damals in der guten alten Telefonschleife. Und hatten dabei die gleiche Frage wie heute: Welcher Typ, welcher Charakter passt am besten zur Identität einer Marke, und welche Intention verfolgt sie?“
Seine Kunden wünschen sich nach wie vor, dass die Markenstimme in Imagefilmen oder Kampagnen-Spots echt ist. Für Funktionsstimmen – etwa bei Service-Bots oder in Produkt-Tutorials – könne dagegen eine künstliche Stimme genügen. Beide sollten jedoch die gleichen charakteristischen Merkmale haben, etwa Sprechweise, Stimmfarbe und Alter, empfiehlt der Fachmann.
Mit einer Illusion räumt Hirt auf: „Die perfekte Stimme gibt es nicht.“ Das gilt auch für synthetische Stimmen. Zwar haben Navigationsgeräte und Sprachassistenten in der Vergangenheit eine gewisse stimmliche Ästhetik geprägt, doch der Einsatz von Künstlicher Intelligenz (KI) stellt sie infrage. Hirt spricht von einem noch nicht gefundenen Sweet-Spot, wie ein KI-Assistent klingen soll. Während Anbieter wie OpenAI versuchen, ihren synthetischen Stimmen durch „Äh“- und „Hm“-Laute eine menschliche Note zu geben, sieht er auch den gegenteiligen Trend: „Die Kunden möchten gar nicht, dass sich ein Chatbot wie ein echter Mensch verhält und genauso spricht.“
Was KI für sein Arbeitsfeld bedeutet, fasst Hirt so zusammen: „Es braucht immer noch jemanden, der beschreiben kann, was er eigentlich will.“ Zugleich beobachtet er genau, wie sich die Systeme weiterentwickeln: „Im Prinzip stehen wir heute schon an der Stelle, dass man relativ authentische Stimmen generieren kann.“
Eine vollautomatische Generierung natürlicher, authentischer Stimmen auf Knopfdruck gibt es jedoch noch nicht. Selbst mit professionellen KI-Tools sei der Prompt-Aufwand groß, die Fehlerquote hoch und das Ergebnis oft Zufall, erläutert Hirt. Gut geeignet sei KI dagegen für Korrekturen einzelner Wörter: So lasse sich in einer Originalaufnahme etwa die falsche Aussprache eines Namens oder eine Zeitangabe ausbessern – vorausgesetzt, die Sprecherin stimmt zu.
Viele Fragen zu Urheberrecht, Nutzung und Lizenzierung sind noch offen. Der deutsche Sprecherverband rät seinen Mitgliedern, darunter viele Profis aus dem Audity-Pool, deshalb davon ab, ihre Stimmen in Tools wie Elevenlabs hochzuladen – unklar sei, was mit den Daten geschehe. Die Folge, so Hirt: „Viele der Profisprecherinnen und -sprecher lassen sich nicht auf KI-Themen ein.“
Während Hirt nach Lösungen sucht, wächst das Interesse seiner Kunden am Voice Branding stetig. Die Erwartungen seien jedoch – befeuert durch die Tech-Branche – überzogen, ist er überzeugt: „KI muss robuste, gute Ergebnisse leisten können und darf keine Fehler erzeugen. Wir bereiten uns darauf vor, dass irgendwann alles möglich ist.“
Um eine künstliche Stimme zu entwickeln, beginne man derzeit am besten mit einer menschlichen: Über mehrere Stunden wird echtes Stimmmaterial aufgenommen und der Algorithmus damit trainiert. Klingt die Stimme anschließend zu klar, kann nach dem Prinzip des Farbkastens eine zweite, rauere Stimme „zugemischt“ werden. Diese hybride Stimme basiert zwar auf zwei oder mehr echten Menschen, ist aber dennoch einzigartig. Ob sie auch authentisch wirkt, liegt am Ende im Ohr des Kunden.
Die Grenzen sind nicht nur technischer Natur, sondern hängen auch von der Akzeptanz der Endkunden ab. „Dort, wo Ecken und Kanten erwünscht sind, sind noch echte Menschen gefragt“, sagt Hirt. Doch wie lange noch? Diese Frage treibt ihn um. Er zieht den Vergleich zur Filmbranche: Natürlich könne man sich vorstellen, dass künftig ganze Hollywood-Blockbuster per KI entstehen. „Aber fühlt sich das richtig an?“
In seiner Prognose werden professionell ausgebildete Sprecher auch in einem zunehmend synthetischen Umfeld gebraucht – vielleicht mehr als Impulsgeber, Berater und Lenker. „Will ich mit einer KI arbeiten? Ja, in vielen Fällen, aber in manchen Fällen brauche ich einfach auch jemanden, dem ich vertraue und der sagt: ‚Hey, du hast eine Expertise, ich brauch mal deine Einschätzung.“