Hier arbeiten Vincent Vanhoucke und Franz Och gemeinsam an der großen Vision. Die Herausforderungen für die beiden Teamleiter sind noch gewaltig: Jedes gesprochene Wort muss am Ende praktisch ohne Verzögerung erkannt, blitzschnell korrekt übersetzt und am anderen Ende fehlerfrei betont in einer anderen Sprache wieder ausgegeben werden. Da zählt jede Nuance in der Aussprache, um die Fehlerquote auf ein erträgliches Minimum zu drücken. "250000 Sprachbeispiele sind das Minimum pro Sprache", sagt Vanhoucke. 27 Sprachen werden bereits unterstützt, "ohne Linnies Arbeit wäre das so schnell gar nicht möglich gewesen".
Sein Sprachscout stattete weltweit Gruppen von Nutzern mit Smartphones und einer speziellen Software aus - und ließ sie einfach reden. Üblicherweise werden Sprachschnipsel bei spezialisierten Unternehmen eingekauft, aber "wir haben von Anfang an gewusst, dass das nicht funktionieren wird", so Ha. "Die besten Daten kommen von den Anwendern selbst."
Eine Datenbank der störenden Geräusche
Als willkommener Nebeneffekt kam eine Datenbank der störenden Umweltgeräusche des täglichen Lebens dazu, vom U-Bahn-Geratter in London über das Fußballstadion in Frankreich bis zur Busfahrt in Mexico City. Zwei australische Google-Forscher gingen für die korrekte Spracherkennung sogar ins Wasser. Am Great Barrier Reef ließen sie Taucher per Funk Sprachbefehle auf ein an Bord ihres Schiffes installiertes Smartphone übertragen, angereichert um das Geblubber der Druckluftatmer. Ein anderer Weg führte in ein Höhlenlabyrinth mit starken Halleffekten und Windgeräuschen.
Trotz aller Bemühungen: Der Akustikteil der Spracherkennung, das reine Hören also, "hat noch lange nicht das Niveau des menschlichen Verständnisses" erreicht, wie Sprach-Chef Vanhoucke einräumt. Aber die Forscher sammeln weiter Daten: Immer, wenn ein Nutzer einen Suchbefehl in sein Smartphone spricht, wird er aufgezeichnet, die Suchanfrage wird zum Sprachmuster. Egal ob ein Japaner aus Niigata, ein Deutscher aus München oder eine Amerikanerin mit Südstaatendialekt "Restaurant in San Francisco" eingibt - Google nimmt es als Vergleichshilfe hinzu. Vanhoucke nennt das "Superhuman Speech Recognition".
Derzeit trainieren die Rechner mit 240 Milliarden Wörtern von Millionen von Nutzern. Jeden Tag lauschen die Server einem Wortstrom, der hintereinander gesprochen für zwei Jahre Dauerreden ausreichen würde. Und mit jedem Wort werden die Ergebnisse ein klein wenig besser.
Die Bibel hilft beim Übersetzen
Während Vanhoucke das Team für die Spracherkennung leitet und Linnie Ha um den Globus jettet, feilt der deutsche Wissenschaftler Franz Och mit seinem Team am zweiten Kernelement der Zukunftsvision: der maschinellen Übersetzung von Texten, "Google Translate" genannt. Och, Absolvent der RWTH Aachen, setzt auf die Technik der statistischen Übersetzung von Texten. Dabei lernt das System nicht etwa starre Grammatikregeln und Vokabeln auswendig, sondern es lernt über Vergleiche.