Der Rechner kann fast schon gefühlvoll reden
Sprach-Software wird zur wichtigsten Schnittstelle

Der Computer könnte bald zum sprechenden Helfer werden. Forscher haben die synthetische Sprache schon so weit verbessert, dass sie fast das Niveau von Nachrichtensprechern erreicht. Softwarehäuser sehen das große Geschäft und investieren.

KÖLN. Die meisten Versuche, dem Computer das Sprechen beizubringen, verliefen bisher kläglich: Hölzern, abgehackt und kaum verständlich kamen die Worte aus den PC-Lautsprechern. Nur entfernt erinnerten die Geräusche oft an menschliche Stimmen. Jetzt sind allerdings erste Systeme auf dem Markt, die eine erstaunlich gute Sprachqualität bieten. Mit "Natural Voices" hat zum Beispiel der US-Konzern AT&T eine Software entwickelt, die Stimmen klonen kann und jeden Text sicher und betont vorliest.

Basis solcher neuen Produkte ist die Zerlegung der Sprache in zehntausende Kurzlaute, aus denen Wörter, Sätze und ganze Texte neu zusammengesetzt werden. Wesentliche Grundlagen dafür lieferten Forscher der Universität Bonn: Seit Jahren versuchen Ingenieure, Informatiker und Sprachwissenschaftler am Institut für Kommunikation und Phonetik (IKP), Rechnern das Reden beizubringen. "Bei der Sprachsynthese dreht sich alles um Verständlichkeit und Natürlichkeit", sagt IKP-Professor Wolfgang Hess. Es sei schon schwierig, trotz einer starken Geräuschkulisse oder über ein Telefon verständlich zu bleiben. Das größte Problem sei aber, die Computerstimme menschlich wirken zu lassen.

Die Bonner Forscher haben deshalb einen Ansatz des japanischen Wissenschaftlers Yoshinori Sagisaka weiterentwickelt: Bei der so genannten "non uniform unit selection" werden sämtliche Laute in einem Satz katalogisiert und mit Zusatzinformationen versehen. So enthält die Datenbank zum Beispiel mehrere hundert Variationen des Lautes "au" - jeweils unterschiedlich lang oder verschieden betont. Beim Vorlesen sucht der Computer anhand der Zusatzinformationen den passenden Laut - im Satz "Wie siehst du denn aus?" beispielsweise das "au" mit dem Etikett "Satzende, Frage". Bis zu 14 000-mal taucht mancher Laut in der Datenbank auf. "Das macht den enormen Aufwand eines solchen Systems deutlich", sagt Hess.

Menschlich klingt die Computerstimme damit immer noch nicht. Um Emotionen auszudrücken, müssten Unmengen weiterer Daten gesammelt werden. "Immerhin sind jetzt aber Vorleseautomaten auf dem Markt, die sich schon fast so gut wie Nachrichtensprecher anhören", sagt Hess.

"Was die Natürlichkeit der Sprache betrifft, hat AT&T das derzeit beste Produkt auf dem Markt", sagt Ronald Gruia, Senior Analyst beim Beratungsunternehmen Frost & Sullivan. Erst vor kurzem wurde das System von Frost & Sullivan mit dem "Technology of the Year"-Preis ausgezeichnet.

"Sprechende Computer sparen Zeit und Personal. Für den Normalverbraucher wird der PC deutlich bedienungsfreundlicher", sagt Hess. Das haben auch fast alle großen Softwarehäuser erkannt. "Der Markt für Sprachsynthese ist inzwischen voll entdeckt", sagt Hess. "Derzeit werden riesige Summen in die Entwicklung von Endprodukten für den Verbraucher gepumpt." Die zahlreichen Anbieter der Voice-Commerce-Produkte haben unter Federführung der Unternehmen IBM und Clarity den Branchenverband Voice Applications Standards Committee e.V. (Vascom) gegründet. Der Verband will vor allem eine stärkere Standardisierung und Kompatibilität der Produkte erreichen.

Vascom erwartet nach eigenen Angaben, dass die Umsätze mit Voice Commerce in wenigen Jahren größer sein werden als die von Electronic und Mobile Commerce zusammen genommen. Das Forschungsinstitut Forrester Research ist äußerst zuversichtlich und prognostiziert schon für das nächste Jahr ein weltweites Marktvolumen für V-Commerce in Höhe von 450 Milliarden Euro. Jeder, der ein Telefon besitzt, werde künftig Sprachportale nutzen, glaubt Forrester.

"Auch für unser Unternehmen ist die Sprachtechnologie eine entscheidende Zukunftstechnologie", sagt Steffen Güntzler, zuständiger Vertriebsmanager von IBM. Für den Endanwender setze man allerdings eher auf kombinierte Spracherkennungs- und Sprachausgabesysteme: "Für den normalen Verbraucher ist es sicherlich wichtiger, Texte per Sprache einzugeben als vorgelesen zu bekommen", sagt Güntzler. Wichtig werde die Sprachsynthese vor allem beim Telefonzugriff auf Internetangebote - "ein rasant wachsender Markt", so Güntzler.

Für die kleinen Anbieter von V-Commerce-Produkten könnte die Konkurrenz der Großunternehmen bedrohlich werden. Das Bochumer Softwarehaus G-Data etwa bietet mit "Logox" einen Vorleseautomaten für jedermann an. Trotz des geringen Preises von 59 Euro kann das Programm in annehmbarer Verständlichkeit und Betonung zum Beispiel ganze Webseiten vorlesen. "Sicher besteht die Gefahr, dass wir gegen die großen Anbieter mit ihren riesigen Marketingetats nicht mithalten können", sagt Unternehmenssprecher Michael Klatte.

Gemeinsam mit der Tochterfirma Lingcom wolle sich G-Data aber dennoch im Wettlauf um die nächste Stufe der Sprachsynthese beteiligen: In spätestens fünf Jahren werde es Computer geben, mit denen sich die Benutzer in Rede und Gegenrede wie mit einem Menschen unterhalten können, sagt Klatte.

Quelle: Handelsblatt

Serviceangebote
Zur Startseite
-0%1%2%3%4%5%6%7%8%9%10%11%12%13%14%15%16%17%18%19%20%21%22%23%24%25%26%27%28%29%30%31%32%33%34%35%36%37%38%39%40%41%42%43%44%45%46%47%48%49%50%51%52%53%54%55%56%57%58%59%60%61%62%63%64%65%66%67%68%69%70%71%72%73%74%75%76%77%78%79%80%81%82%83%84%85%86%87%88%89%90%91%92%93%94%95%96%97%98%99%100%