Spezial Sprachtechnologie
Spracherkennung: Robustheit erhöhen

Zentraler Baustein eines jeden Sprachverarbeitungsprozesses ist die Spracherkennung. Wenn es sich um gesprochene Sprache handelt, müssen zur Ein- und Ausgabe spezielle Module vorgeschaltet werden. Diese werden in der Regel von spezialisierten Anbietern wie IBM, Philips oder ScanSoft geliefert.

WiWo HANNOVER. Dabei stellt die Spracherkennung von Diktatsoftware ganz andere Anforderungen als die von sprachgesteuerten Dialogsystemen. Bei Diktaten sollte jedes einzelne Wort verstanden werden. Dafür müssen Nutzer aber die Software an ihre persönliche Stimme und ihr Vokabular gewöhnen.

Wolfgang Karbstein, Sales Manager für Sprachsysteme bei IBM Deutschland, empfiehlt, eine neue Diktatsoftware mindestens eine Viertelstunde mit allgemeinen und zwei Stunden mit eigenen Texten zu trainieren. Schon das ist einigen zu viel. Karbstein: "Es macht mich wahnsinnig. Viele Menschen machen wochenlange Abendkurse, um Zehn-Finger-Schreiben zu lernen, erwarten aber, dass Diktatsoftware auf Anhieb funktioniert." Er gibt aber selbstkritisch zu: "Der Konsument ist enttäuscht. Weil wir zu hohe Erwartungen geweckt haben."

Spracherkennung bei Call-Centern sollte dagegen unabhängig vom Sprecher funktionieren. Deshalb ist ihr Wortschatz begrenzt. Allerdings muss ein Nutzer bei fortgeschritteneren Anwendungen lange stochern, bis er die Lücken entdeckt. Ein weiteres Problem: Über die Telefonleitung kommt die Sprache in so schlechter Qualität an, dass viele akustische Informationen verloren gehen.

Dieses Problem gibt es bei der Sprachsteuerung von Handhelds oder Autos nicht. Dafür müssen diese Geräte stark mit ihrer Rechenleistung haushalten, während die Prozesse bei Call-Centern auf leistungsfähigen Servern laufen.

Die Erkennungsleistung bei der Diktatsoftware ist nach Ansicht Karbsteins derzeit mit 98 Prozent an der Obergrenze angelangt. Entscheidende Entwicklungsschritte seien in diesem Bereich nicht zu erwarten. Zwar gebe es Überlegungen, die Lippenbewegung mit einfließen zu lassen. Aber derzeit werde, so Karbstein, mit "angezogener Handbremse" geforscht.

Deshalb werden Produkte gar nicht mehr damit beworben, dass sie die Sekretärin überflüssig machen. Im Gegenteil: Auf der CeBIT (Halle 1, 4G2) stellte IBM eine Version der Diktatsoftware ViaVoice vor, die nicht mehr auf dem PC des diktierenden, sondern auf einem Server läuft. Der Vorteil: Eine Sekretärin kann zeitgleich im Nebenraum mithören und die Patzer der Software in Echtzeit korrigieren.

Bei der sprecherunabhängigen Systemen gibt es dagegen noch einiges Potenzial. "Im Prinzip muss ich alles, was der Benutzer sagen könnte, vordefinieren", so Karbstein. Selbst wenn bei Dialog-Systemen 800 bis 1000 Befehle hinterlegt sind - wenn der Nutzer auf die 1001. Formulierung kommt, versteht die Software nur Bahnhof. Um dieses Problem zu umgehen, wertet IBM in den USA gerade die Aufzeichnungen von Call-Center-Gesprächen aus. So wird die Spracherkennung mit einer großen Menge tatsächlich stattgefundener Gespräche gefüttert. Die Wahrscheinlichkeit, dass sich dann noch Lücken auftun, ist entsprechend gering.

Als wichtigstes Ziel für die Zukunft nennt Karbstein "die Robustheit auch unter erschwerten Bedingungen wie auf Bahnhöfen oder Flughäfen zu erhöhen". Mittel dazu sind zum Beispiel hochwertige Richtmikrofone, die Hintergrundgeräusche gar nicht erst aufnehmen. Auf der CeBIT werden solche Geräte aber wohl nie vorzuführen sein, schmunzelt Karbstein: "Hier verstehe ich ja nicht mal mein eigenes Wort."

Serviceangebote
Zur Startseite
-0%1%2%3%4%5%6%7%8%9%10%11%12%13%14%15%16%17%18%19%20%21%22%23%24%25%26%27%28%29%30%31%32%33%34%35%36%37%38%39%40%41%42%43%44%45%46%47%48%49%50%51%52%53%54%55%56%57%58%59%60%61%62%63%64%65%66%67%68%69%70%71%72%73%74%75%76%77%78%79%80%81%82%83%84%85%86%87%88%89%90%91%92%93%94%95%96%97%98%99%100%