Spezial Sprachtechnologie
Sprachverarbeitung: Wahrscheinlich verstanden

Egal, ob die Inhalte als gesprochene Sprache oder als geschriebener Text in eine Sprachsoftware einfließen - sie müssen zunächst verarbeitet werden, wenn daraus ein Dialog oder eine Übersetzung werden soll.

HANNOVER. Vorbild dafür ist das menschliche Hirn. Dort werden Wörter nicht wie in einem Lexikon abgelegt (hier der Begriff, dort die Definition), sondern in einem Netz aus Querverweisen und Verästelungen - das sogenannte "semantische Netz". So aktiviert der Begriff "Maus" beispielsweise benachbarte Begriffe wie "Säugetier", aber auch "Katze", "Tom und Jerry" oder "Computermaus" und evoziert zudem das innere Bild eines kleinen, bepelzten Wesens mit einer Vorliebe für Käse.

Die "Hardware", auf der diese Prozesse ablaufen, ist beim Menschen ein neuronales Netz. Rund hundert Milliarden Nervenzellen sind im Hirn miteinander verbunden. Erinnerungen werden dadurch gespeichert, dass die Verbindungen zwischen bestimmten Zell-Verbänden verstärkt werden. Das neuronale Netz lernt durch Erfahrung und reagiert auf Ähnlichkeiten. Eine strenge Entweder-Oder-Logik wie dem Rechner ist ihm fremd.

In frühen Stadien der Künstlichen-Intelligenz-Forschung versuchten die Wissenschaftler, diese Prozesse mit Computern zu simulieren. Damit sollte Software nicht nur in der Lage sein, Sprache zu erkennen, sondern auch zu verstehen. Im Branchenjargon heißt das "Natural Language Processing" (NLP).

Thierry Declerck von Deutschen Forschungszentrum für Künstliche Intelligenz in Saarbrücken, meint, dass die Branche heute von der Vision des natürlichen Sprachverstehens abgekommen ist.

Stattdessen ist die Wahrscheinlichkeit das Werkzeug der Wahl. Eine Software wird mit einer großen Menge von Texten gefüttert und ermittelt dann, mit welcher Wahrscheinlichkeit bestimmte Worte gemeinsam auftauchen. Diese gehören dann - aller Wahrscheinlichkeit nach - auch inhaltlich zusammen.

Wolfgang Karbstein, Sales Manager für Sprachsysteme bei IBM Deutschland, sagt: "Wir haben viel in neuronale Netze investiert, aber statistische Spracherkennung funktioniert einfach besser."

Das ist zwar nur eine sehr rudimentäre Form des Verstehens. Immerhin reicht sie aber aus, um beispielsweise Synonyme zu erkennen - also um auseinander zu halten, ob "Bauer" einen Vogelkäfig oder einen Landwirt bezeichnet. Die meisten Dialog-, Übersetzungs- und Spracherkennungsprogramme arbeiten mit einer Verbindung von festen Wenn-dann-Regeln mit einer Wahrscheinlichkeitsauswertung.

Der Vorteil dieser Methode: Um ein neues Themengebiet zu erschließen, reicht es, einige Millionen Wörter Fließtext aufzutreiben und einzuspeisen.

"Mit Wahrscheinlichkeiten kann man unwahrscheinlich falsch liegen", meint hingegen Linguatec-Geschäftsführer Reinhard Busch. Sein Unternehmen, eine IBM-Ausgründung, setzt auf ein semantisches Netzwerk. Dieses hat allerdings so viele Mannjahre Grundlagenforschung verschlungen, dass selbst Linguatec, stünde es am Anfang der Entwicklung, nicht wieder auf diesen Ansatz zurückgreifen würde.

Und die Praxis? "Streng wissenschaftlich gesehen sind wir weit vom natürlichen Sprachverstehen entfernt", gibt Clarity-Chef Christoph Pfeiffer zu. "In der Praxis merkt der Nutzer aber nichts davon." "Wir haben zwar noch kein NLP, aber immerhin schon NLC - Natural Language Command", sekundiert Steffen Güntzler von IBM.

In der Tat - sowohl Telefon-Dialogsysteme als auch Übersetzungssoftware funktionieren erstaunlich zuverlässig. Sofern eine Menüstruktur wie in älteren System vorhanden ist ("Wenn Sie zum Kundendienst wollen, sagen Sie..."), ist diese nicht mehr für den Nutzer ersichtlich. Er kann einfach sagen, was er möchte, die Software macht den Rest. Der größte Unbill für einen Anrufer ist es, einen Befehl wiederholen zu müssen.

Doch die Grenzen sind jeweils dort, wo ein Nutzer die eng eingegrenzten Themengebiete verlässt. Was beispielsweise, wenn er plötzlich die Ergebnisse des letzten Bundesliga-Spieltages wissen möchte? Florian Gallwitz, Produktentwickler bei Sympalog, grinst, wählt eine Nummer und fragt: "Wie hat Bayern München gespielt?" Eine leicht blecherne Stimme antwortet prompt: "Bayern München gegen Kaiserslautern: Null zu Null".

Ein Trick, keine Frage. Statt ein virtuelles Reisebüro wählte Gallwitz die Nummer einer von Sympalog entwickelten Bundesliga-Auskunft. Wenn man dort vom Thema abkommt gibt es zwei Möglichkeiten: Die Maschine versteht nichts und fragt nach, oder sie versteht falsch und antwortet auf die vermeintlich erkannte Frage. Doch die virtuelle Stimme lässt sich immerhin willig unterbrechen und korrigieren.

Für Wolfgang Karbstein von IBM ist das dann auch eine Schlüsselfunktion für die Kommunikation mit der Maschine: "Entscheidend ist die Dialogführung. Wenn die Software etwas nicht versteht, muss sie nachfragen. Der Nutzer darf nicht hängen gelassen werden."

Auf solche Dialogführung nebst Integration von Datenbanken hat sich beispielsweise die Clarity AG spezialisiert. Clarity setzt darauf, die Stimmen-Portale zum großen Geschäft zu machen. Als ein Kunde ist Lufthansa Systems im Gespräch. Eine telefonbasierte Partnervermittlung, in Verbindung mit einer Fernsehshow eines großen deutschen Privatsender, soll im Sommer offiziell angekündigt werden. "Damit entstehen ganz neue Business-Modelle", schwärmt Frank Cernic, Director Partner Sales bei Clarity. Wenn die Voice-Portale sich erst einmal so einem großen Ansturm gewachsen gezeigt haben, werden sie, hofft Cernic, sich im großen Maßstab etablieren.

Serviceangebote
Zur Startseite
-0%1%2%3%4%5%6%7%8%9%10%11%12%13%14%15%16%17%18%19%20%21%22%23%24%25%26%27%28%29%30%31%32%33%34%35%36%37%38%39%40%41%42%43%44%45%46%47%48%49%50%51%52%53%54%55%56%57%58%59%60%61%62%63%64%65%66%67%68%69%70%71%72%73%74%75%76%77%78%79%80%81%82%83%84%85%86%87%88%89%90%91%92%93%94%95%96%97%98%99%100%