Saarbrücker Forscher wollen dem Computer den Menschen beibringen
Sprechen und Zeigen statt Tippen

Noch immer ist der Umgang mit dem Computer zu kompliziert. Der Mensch stellt sich auf den Rechner ein - und nicht umgekehrt. Das wollen die Forscher am Forschungszentrum für Künstliche Intelligenz ändern. Sie bringen dem Computer bei, nicht nur Sprache, sondern auch Gesten zu verstehen.

SAARBRÜCKEN. Wer hätte sich nicht schon einmal gewünscht, dass einem der Computer die Wünsche von den Augen abliest? Statt Befehle mit der Tastatur einzugeben, nur die Stimme erheben, den Zeigefinger ausstrecken und eine erläuternde Geste - und schon weiß die Maschine, was man möchte.

Was auf den ersten Blick utopisch anmutet, funktioniert bereits im Labor. Das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) hat vor kurzem gemeinsam mit einem Dutzend Partnern (darunter Siemens, Philips, Daimler-Chrysler und Sony) erste Meilensteine des Projektes SmartKom vorgestellt.

Hinter der griffigen Formel steht eine neue Interaktionsplattform für Mensch und Computer, die an verschiedene Benutzer anpassungsfähig ist. Neben dem Sprechen werden hier auch andere menschliche Ausdrucksformen integriert - etwa Zeigen, Kopfnicken oder Kopfschütteln. Die Benutzergesten werden über eine Kamera erfasst, an den Rechner übermittelt und dort per Mustererkennung interpretiert.

Da sich die Eingabeformen wechselseitig ergänzen, ist es die größte Herausforderung für die Forscher, sie nahtlos zu integrieren und zu verarbeiten. "Die Schwierigkeit besteht darin, Sprache, Gestik und Mimik, Stifteingabe und Grafik und Biometrie, mit der etwa über den Fingerabdruck ein bestimmtes Benutzerprofil aktiviert wird, zu einer Information zusammenzuführen", sagt der wissenschaftliche Leiter von SmartKom, Professor Wolfgang Wahlster. Dabei gelte es, so der DFKI-Geschäftsführer, auch die Verarbeitung von ungenauen, mehrdeutigen und teilweise unkorrekten Eingaben sicherzustellen.

Multimodale Kommumikation

Der vorgestellte Prototyp - eine digitale Kinoauskunft - verdeutlicht das Prinzip der multimodalen Kommunikation: Das System besteht aus einem Rechner, der mit einer Kamera, einem Mikrofon und einem Bildschirm verbunden ist. Deutet man während einer Äußerung wie "Den Film möchte ich gerne sehen. Wo läuft der?" mit dem Finger auf einen Filmtitel, der in einer Grafik auf dem Monitor erscheint, interpretiert der Computer den Info-Mix aus Geste und Sprache.

Nach der Suche im Internet zeigt der SmartKom-Prototyp eine Karte mit Kinos in der Nähe des Aufenthaltsortes des Benutzers, die den ausgewählten Film gerade zeigen. Anschließend kann man auf die Karte zeigen und zum Beispiel sagen: "Da würde ich gerne reservieren." Der Computer folgt der Anweisung, der Kinoabend ist gerettet.

Damit so etwas auch im Alltag funktioniert, werden noch einige Jahre Entwicklungsarbeit vergehen. Schließlich müssen sich die Assistenten auf die Eigenarten der Benutzer individuell einstellen können und auch mehrdeutige oder unvollständige Eingaben sinnvoll im Gesprächszusammenhang interpretieren. Ein anspruchsvolles und lohnendes Ziel: Nach amerikanischen Studien würde die Kommunikation mit dem Rechner gegenüber der weit verbreiteten Menütechnik um das Fünffache beschleunigt, wenn neben der Alltagssprache noch natürliche Gesten hinzu kämen.

Als ein Anwendungsszenario wird auch eine so genannte öffentliche Kommunikationszelle erprobt. Sie wäre die Weiterentwicklung der Telefonzelle und könnte für Reisebuchungen, Bankgeschäfte und Datentransfers in Flughäfen, auf Bahnhöfen, Autobahnraststätten oder in Einkaufszentren dienen.

Serviceangebote
Zur Startseite
-0%1%2%3%4%5%6%7%8%9%10%11%12%13%14%15%16%17%18%19%20%21%22%23%24%25%26%27%28%29%30%31%32%33%34%35%36%37%38%39%40%41%42%43%44%45%46%47%48%49%50%51%52%53%54%55%56%57%58%59%60%61%62%63%64%65%66%67%68%69%70%71%72%73%74%75%76%77%78%79%80%81%82%83%84%85%86%87%88%89%90%91%92%93%94%95%96%97%98%99%100%