Flux 2 vs. Nano Banana Pro: Der Wettlauf um die beste KI-Bilderstellung
Düsseldorf. Am Donnerstag erst hat Google sein neuestes Text-zu-Bild-Modell „Nano Banana Pro“ vorgestellt und führt damit die Rangliste der besten Bildmodelle an. Nun hat der deutsche Rivale Black Forest Labs (BFL) nachgelegt. „Flux 2“, wie das neue Modell der Freiburger KI-Firma heißt, erzeugt nicht nur fotorealistische Bilder aus kurzen Textbefehlen, sondern kann auch Webdesigns generieren.
Die Konkurrenz um das beste KI-Bildmodell verschärft sich damit, und sie wird für Unternehmen zunehmend relevant. Hinter dem Wettlauf steht ein Markt, der rasant wächst: Bild-, Video- und Audiomodelle gelten laut dem Marktforschungsunternehmen Gartner inzwischen als „Infrastruktur für digitale Wertschöpfung“. Zwischen 2021 und 2023 flossen 1,4 Milliarden Dollar in 46 Start-ups, die diese Entwicklung prägen. Doch was unterscheidet die Modelle – und warum ist das Wettrennen um das beste Bild so relevant?
Der Überblick: Was können die KI-Bildmodelle?
Sowohl Nano Banana Pro als auch Flux 2 lösen ein Kernproblem der Bildmodelle: Sie erzeugen nun korrekten Text. Logos, Beschriftungen, Plakate oder Infografiken entstehen sauber, mehrsprachig und in verschiedenen Schriftarten. Google demonstrierte das mit Getränkedosen, die sich nur durch die Sprache der Aufschrift unterscheiden. Dieser Schritt war lange überfällig – viele Vorgängermodelle scheiterten an einfachen Buchstaben.
Zudem können Nano Banana Pro und Flux 2 komplette Szenen verändern, Kleidung, Hintergründe, Perspektiven oder Licht anpassen und bis zu zehn Personen oder Gegenstände stimmig in neue Umgebungen setzen.
Für Manuel Kern, Professor für Digitales Marketing von der Hochschule Heilbronn, ist das revolutionär: „Wir sind jetzt an einem Punkt, an dem diese Modelle wirklich verlässlich einsetzbar sind.“ Entscheidend sei, dass die Ergebnisse kontrollierbar und reproduzierbar geworden seien. „Früher konnte man ein Motiv nicht zuverlässig wiederholen. Jetzt bekomme ich dieselbe Szene nahezu identisch noch einmal.“
Black Forest Labs setzt bei Flux 2 auf Bildqualität und Kontrolle. Das Modell erzeugt Motive mit bis zu vier Millionen Pixeln und stellt Hände, Gesichter und Oberflächen realistisch dar – auch ein Punkt, an dem viele Anbieter bislang scheiterten. „Mit Flux 2 kann man verschiedene Bilder zusammenführen und mit Text kombinieren – egal ob reale oder synthetische“, sagte BFL-Chef Robin Rombach dem Handelsblatt.
Für Unternehmen entscheidend ist die Skalierbarkeit: Flux 2 verarbeitet Zehntausende Anweisungen nacheinander, hält Qualität und Tempo stabil und kann aus einem einzigen Textbefehl komplette Website-Layouts oder Präsentationen erzeugen.
Das Modell erscheint in vier Varianten, darunter eine Premium- und eine offen nutzbare Entwicklerfassung. „Für hohe Qualität und Effizienz muss man an vielen Stellschrauben optimieren. Das ist unsere Spezialisierung“, sagte Rombach. Teams wie Innenarchitekten oder Händler, die täglich Hunderte Designvarianten benötigen, sollen damit erheblich Zeit sparen. Zahlreiche Plattformen haben das neue Modell von BFL bereits integriert.
Die Telekom testet Flux 2 derzeit in mehreren europäischen Märkten. „Wir sind äußerst zufrieden mit der Qualität der Ergebnisse. Das ist noch einmal ein deutlicher Sprung“, teilte der Konzern auf Handelsblatt-Anfrage mit.
Dafür hat die Telekom das System „T-Create“ entwickelt: ein auf Flux 2 basierendes Werkzeug, das Figuren, Farben und Produkte konsistent im Telekom-Stil darstellt und zusätzlich 360-Grad-Ansichten erzeugt. Ab dem ersten Quartal kommenden Jahres soll T-Create breit ausgerollt werden – markenkonforme Bilder sollen dann deutlich schneller und effizienter entstehen.
Was unterscheidet Nano Banana von Flux 2?
Google setzt bei Nano Banana Pro auf Studioqualität. Nutzer können Kamerawinkel, Schärfe und Farbwirkung direkt im Modell ändern – wie in einer echten Fotoproduktion, aber schneller.
Motive lassen sich zum Beispiel praktisch umgehend von Tag auf Nacht umdesignen. Das Modell erzeugt Bilder in 2K oder 4K, unterstützt zahlreiche Seitenverhältnisse und hält mehrere Personen stabil im Bild.
» Lesen Sie auch: Revolution im Onlinehandel: KI steuert Milliardenumsatz am Black Friday
Ein zentraler Unterschied ist die Anbindung an das Internet: Nano Banana Pro kann Informationen über die Google-Suche recherchieren. Für Unternehmen ist das besonders nützlich, wenn aktuelle Daten in Infografiken eingebunden werden sollen.
Parallel integriert Google das Modell in seine wichtigsten Dienste: Gemini nutzt es in der Pro-Version standardmäßig, ebenso Google Slides und das Videotool Vids. In Google Ads und der Programmierhilfe Antigravity steht es ebenfalls bereit. Entwickler können über AI Studio, die Gemini-Schnittstelle und die KI-Plattform Vertex AI darauf zugreifen. Jedes Bild erhält automatisch ein Wasserzeichen, was es authentifiziert.
Welches Modell ist für wen geeignet?
Für viele Unternehmen spielt es inzwischen weniger eine Rolle, welches Modell das etwas schärfere Bild oder die minimal bessere Auflösung liefert. Christian Kirschniak, Partner bei der Strategieberatung BCG, sagt: „Die Modelle werden mit jeder Version besser. Aber für Firmen zählt, ob sie zuverlässig, rechtssicher und gut eingebunden sind.“
Kirschniak sagt: „Große Anbieter sind da derzeit im Vorteil, weil sie nicht nur das Modell liefern, sondern auch die gesamte Plattform dahinter – inklusive Governance und Wasserzeichen.“ Für Teams, die bereits mit Google-Diensten arbeiten und Wert auf eine schnelle kreative Steuerung legen, ist Nano Banana Pro daher oft die naheliegende Wahl.
Zugleich rückt die Wirtschaftlichkeit in den Vordergrund. Unternehmen, die täglich Hunderte oder Tausende Motive erzeugen, achten auf Kosten und Geschwindigkeit.
Hier kann BFL punkten: Flux 2 berechnet für das erste Megapixel 0,03 Dollar, für jedes weitere 0,015 Dollar – und erstellt das Bild in unter zehn Sekunden. Damit liegt das Modell klar unter den Preisen von Googles Nano-Banana-Reihe: Das ursprüngliche Nano-Modell kostet 0,039 Dollar pro Megapixel, Nano Banana Pro sogar noch mehr. Damit adressiert Flux 2 vor allem Firmen, die große Mengen Bilder in hoher Qualität benötigen.
Marketingteams stoßen inzwischen weniger an technische als an organisatorische Grenzen. Viele Firmen haderten noch mit internen Freigaben, rechtlichen Unsicherheiten oder kulturellen Vorbehalten, besonders im Mittelstand, sagt Marketingexperte Kern. Große Konzerne agierten mutiger: „Die Qualität zeigt, dass es für Marketing keine Grenzen mehr gibt.“
Die Sorge vor einer einheitlichen KI-Bildsprache hält Kern deshalb für unbegründet. Firmen könnten ihren eigenen Stil künftig präzise in den Modellen abbilden: „Ich brauche keine großen Fotostudios mehr, um Produktbilder zu erstellen.“ Der Professor glaubt, dass KI-Fotografie schon 2026 der Standard wird.
Erstpublikation: 25.11.2025, 20:56 Uhr.