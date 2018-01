Wie weit künstliche Intelligenz mittlerweile fortgeschritten ist, lässt sich besonders gut an visuellen Aufgaben erkennen: Microsoft hat einem Bot beigebracht, das zu zeichnen, was der Nutzer ihm sagt.

Der Drawing-Bot in Aktion. (Foto: Microsoft) Zeichenbot malt Vogel

BerlinMicrosoft hat einen Zeichenbot entwickelt, der anhand von Textbeschreibungen Bilder erstellt. So kann er zum Beispiel das Bild eines Vogels mit einem gelben Körper, schwarzen Flügeln und einem kurzen Schnabel zeichnen.

Der Zeichenbot kann Bilder von alltäglichen Szenen bis hin zum Absurden erzeugen. Interessanterweise enthalten die Bilder mitunter Details, die in den Textbeschreibungen fehlen.

„Wenn du auf Bing nach einem Vogel suchst, bekommst du ein Vogelfoto. Aber hier werden die Bilder vom Computer, Pixel für Pixel, von Grund auf neu erstellt“, so Xiaodong He, Forschungsleiter im Deep Learning Technology Center im Microsoft-Forschungslabor in Redmond, Washington. „Diese Vögel gibt es vielleicht nicht in der realen Welt – sie entsprechen nur der Vogelvorstellung unseres Computers.“

Im Zentrum von Microsofts Zeichenroboter steht eine Technologie, die Generative Adversarial Network (GAN) genannt wird. Das Netzwerk nutzt zwei Modelle des maschinellen Lernens: eines, das Bilder aus Textbeschreibungen generiert und eines, das als Diskriminator bekannt ist und Textbeschreibungen verwendet, um die Authentizität der erzeugten Bilder zu beurteilen.

Der Generator versucht, Fake-Bilder am Diskriminator vorbeizubekommen; der Diskriminator dagegen will sich nicht täuschen lassen. Dieses Zusammenspiel soll helfen, die generierten Bilder zu verbessern.

Der Zeichenroboter wurde auf Datensätze trainiert, die Bilder und Bildbeschreibungen enthalten. Bei Microsofts Anwendung wird der eingegebene Text in einzelne Wörter zerlegt und diese Wörter bestimmten Bildbereichen zugeordnet. Da viele Bilder von Vögeln in den Trainingsdaten Vögel zeigen, die auf Ästen sitzen, zeichnet das System normalerweise Vögel, die auf Ästen sitzen, es sei denn, der Text gibt etwas anderes vor.

Das Team versuchte aber auch, den Zeichenroboter mit unsinnigen Beschreibungen zu verwirren. So wurde verlangt, einen roter Doppeldeckerbus schwebend auf einem See zu zeichnen. Es entstand ein verschwommenes Motiv, das sowohl einem Boot mit zwei Decks als auch einem Doppeldeckerbus auf einem von Bergen umgebenen See ähnelt.

Kommunikation zwischen Mensch und Computer Anfang Anfangs gab es für die Rechenmaschinen keine Monitore, Computer-Tastaturen und Mäuse. Die Programme wurden auf Lochkarten oder gestanzte Lochstreifen geschrieben und mit mechanischen Lesegeräten auf die Rechner übertragen. 1973 Der Xerox Alto (1973) gilt als erster kommerziell verfügbarer Computer mit Maus und grafischer Benutzeroberfläche. Er war zu teuer und floppte. 1975 Der erste Home-Computer, der Altair 8800 (1975), wurde anfänglich mit Kippschaltern programmiert. 1977 - 1981 Die frühen Personal Computer wie Apple II (1977) und IBM PC (1981) arbeiteten mit Bildschirm und Tastatur. Zum Steuern mussten Textbefehle eingetippt werden. 1983 Der Apple Lisa (1983) besaß eine Maus und ein Betriebssystem mit grafischer Benutzeroberfläche. Ein Jahr später kam der erste Apple Macintosh – kurz Mac –, der in größerer Stückzahl verkauft wurde. Microsoft folgte 1985 mit einer noch wenig brauchbaren Windows-Version. Erst mit Windows 3.1 gelang Microsoft 1992 der Durchbruch. 1990er Jahre In den 1990er Jahren, vor allem mit Windows 95, setzte sich die Computer-Maus neben der Tastatur als Steuerinstrument am Schreibtisch breit durch. 2007 Das Steuern über das Berühren und Wischen über den Bildschirm erreichte den Massenmarkt 2007 mit dem ersten iPhone. 2011 2011 legte Apple seinen Sprachassistenten Siri vor, eingeführt mit dem iPhone 4S. Microsoft platzierte den Sprachdienst Cortana 2014, im selben Jahr startete Amazon Alexa. Heute Aktuell (2017) ist die Steuerung von Computern mit Gesichtsmimik Trend, das iPhone X lässt sich mit einer „Face ID“ entsperren und animierte Emojis mit Gesichtsausdrücken steuern.

Die Forscher interpretieren das Ergebnis so, dass der Bot offenbar versuchte, sein Wissen, dass Boote auf Seen schwimmen, im Einklang mit dem Texthinweis auf den Bus zu bringen.

Ob es praktische Anwendungen für diese Technik gibt, wird sich noch zeigen. Microsoft glaubt, dass eine Text-zu-Bild-Generierung als Skizzenassistent für Maler und Innenarchitekten oder als Werkzeug zur sprachgesteuerten Fotobearbeitung dienen könnte. Animationsfilme könnten mit mehr Rechenleistung auf der Basis von Drehbüchern erzeugt werden.

Im Moment ist die Technologie aber noch unvollkommen. Bei genauer Betrachtung zeigen viele Bilder noch Fehler, wie zum Beispiel Vögel mit blauem statt schwarzem Schnabel.