Fortschritte in der Spracherkennung
IBM bringt Waschmaschinen ins Internet

ap HANNOVER. Inmitten der blinkenden High-Tech-Welt auf der Cebit dreht sich am Stand von IBM eine Waschmaschine im Schleudergang. Der Traditionskonzern will damit zeigen, wie die Technik der Spracherkennung in ein paar Jahren den Alltag verändern kann. "Wir müssen weg vom ständigen Maus-Klicken und der Tastaturbedienung!" fordert der für Sprachsysteme zuständige IBM-Manager Wolfgang Karbstein.

Die Waschmaschine des Hausgeräteherstellers Miele ist über eine Funkvorrichtung mit dem Internet verbunden. Nach dem auf der Cebit demonstrierten Szenario soll sie mehreren Bewohnern eines Mietshauses gemeinschaftlich zur Verfügung stehen. Über Internet, WAP-Handy oder das Telefon können die Mieter anfragen, ob die Maschine gerade frei ist. Ein Computer leitet die telefonische Anfrage an den Netzrechner weiter, eine künstliche Stimme spricht die Antwort in den Telefonhörer.



Weil das System mit einem ganz bestimmten Wortschatz programmiert ist, funktioniert die Spracherkennung unabhängig von persönlichen Besonderheiten des Sprechers. Bei einem ebenfalls im Testbetrieb erprobten Börseninformationsdienst kann man so etwa nach dem Aktienkurs von DaimlerChrysler fragen. "Der aktuelle Kurs von DaimlerChrysler ist 53,36 Euro", antwortet in kürzester Zeit die Computerstimme. Ähnliche Tests laufen mit Verkehrsinformationssystemen, bei denen die aktuellen Stauwarnungen aus dem Internet geholt werden.



"Wenn ich wissen will, wie das Wetter in Hannover wird, setze ich mich nicht an den PC, sondern rufe ein solches Sprachportal an", erklärt Karbstein im Gespräch mit der Nachrichtenagentur AP. Die Technik, die dies ermöglicht, wird von IBM als "Webspere Voice Server" bezeichnet. Dahinter verbirgt sich ein komplexes Gefüge aus Computer-Hardware und Software. Ein besonderer "Voice Browser" nimmt die Sprachsignale entgegen, übergibt sie dem Spracherkennungssystem und erhält dann die umgewandelten Textzeichen zurück. Daraufhin wird eine Web-Seite aufgerufen, die das angeforderte Informationsangebot bereit hält. Dieses wird in einem besonderen Format (VoiceXML) übertragen, mit dem der Voice-Browser dann die Sprachausgabe starten kann: Das "Text-To-Speech"-System wandelt die Textzeichen in Sprache um und liest sie dem Anrufer vor.

"Die künstliche Stimme muss gut zu verstehen sein", sagt Karbstein. IBM entwickelt derzeit ein neues Sprachausgabesystem mit einer eigenen Satzmelodie, womit die Stimme noch natürlicher klingen soll. Eine nicht mehr vom Menschen zu unterscheidende Stimme ist aber gar nicht erstrebenswert. "Die Leute müssen wissen, dass sie mit einem Computer sprechen", erklärt der IBM-Manager. "Sonst reden sie wild drauf los."



"Die Geräte werden immer kleiner, aber die Finger nicht"



Bei IBM wird bereits eine sprachgesteuerte Telefonzentrale eingesetzt, mit der jeder Mitarbeiter über eine einzige Nummer zu erreichen ist. Der angeschlossene Computer fragt nach Standort und Name. Daraufhin stellt dieser "Directory Dialer" automatisch die Verbindung her. In den USA seien bereits 200 000 der weltweit 316 000 IBM-Mitarbeiter über dieses System erreichbar, sagt Karbstein. Damit habe IBM in einem Jahr 600 000 $ eingespart.



In nicht allzu ferner Zukunft soll dann auch der Computer nur noch mit der Stimme bedient werden. Denn, so zitiert Karbstein einen Kollegen: "Die Geräte werden immer kleiner, aber die Finger nicht." Statt der umständlichen Bedienung winziger Tastaturen setzt Karbstein deswegen ganz auf die Steuerung mit der Sprache. Schon in ein bis zwei Jahren werde dies bei Handys oder den "Persönlichen Digitalen Assistenten" (PDA) wie dem Palm-Computer verwirklicht sein. In zwei bis drei Jahren sei es dann möglich, dem Handy beispielsweise eine E-Mail zu diktieren.



Ende dieses Jahres soll bei IBM eine neue Version der Spracherkennungssoftware ViaVoice herauskommen. Neben IBM, das in dieser Technik in Deutschland einen Marktanteil von 58 % hat, gibt es auch Spracherkennungsangebote von Philipps und von Dragon, das inzwischen zum belgischen Unternehmen Lernout & Hauspie gehört.



Die kritischste Stelle im Gefüge der Sprachtechnologie sieht der IBM-Fachmann bei der Spracheingabe: "Das Akustiksignal muss sehr sauber sein." Leider werde beim Mikrofon für die Spracheingabe oft gespart.

Wie unauffällig sich der Computer in Zukunft einmal in den Alltag eingliedern lässt, demonstriert IBM mit seinem "digitalen Schmuck": Hier dienen die Halskette als Mikrofon und die Ohrringe als Lautsprecher.

Serviceangebote
Zur Startseite
-0%1%2%3%4%5%6%7%8%9%10%11%12%13%14%15%16%17%18%19%20%21%22%23%24%25%26%27%28%29%30%31%32%33%34%35%36%37%38%39%40%41%42%43%44%45%46%47%48%49%50%51%52%53%54%55%56%57%58%59%60%61%62%63%64%65%66%67%68%69%70%71%72%73%74%75%76%77%78%79%80%81%82%83%84%85%86%87%88%89%90%91%92%93%94%95%96%97%98%99%100%