Bildgenerierung · OpenAI

GPT Image 2

OpenAIs zweite Bildmodell-Generation — deutlich präziser bei Layout und Typografie, mit Reasoning-Schritt vor jedem Bild und 4K-Native-Output.

DSGVO bedingt· USA

GPT Image 2 ist OpenAIs zweite Bildmodell-Generation, im März 2026 vorgestellt und seit April allgemein verfügbar. Wer GPT Image 1 bereits gut fand, bekommt mit v2 drei deutliche Sprünge: einen vorgeschalteten Reasoning-Schritt, native 4K-Auflösung und Multi-Image-Composition.

Der Reasoning-Schritt ist die konzeptionell spannendste Neuerung. Vor der Pixel-Generierung „überlegt" das Modell Komposition, Lichtführung, Perspektive und Typografie und erzeugt eine interne Layout-Skizze. Das Resultat: Schilder mit Tabellen, Plakate mit Spalten, Cover-Designs mit präziser Hierarchie funktionieren auf einem Niveau, das frühere Modelle nicht erreicht haben. Die Latenz steigt im Reasoning-Modus auf 8–15 Sekunden — ein bewusster Trade-off.

Native 4K-Output (3840×2160) ohne Upscaler-Pipeline ist der zweite Hebel: Print- und Display-Workflows kommen ohne Nachbearbeitung aus, Detailtiefe in Texturen und Schatten ist deutlich höher. Die API kennt drei Quality-Stufen (low/medium/high), die Pricing-Achse ist linear.

Multi-Image-Composition schließt die Lücke zu Nano Banana: bis zu 8 Referenzbilder pro Prompt werden konsistent verschmolzen — Person aus Bild 1, Outfit aus Bild 2, Hintergrund aus Bild 3. Style-Reference (visuelle Stilvorgabe als Upload) ist eine zusätzliche Achse für Brand-Konsistenz.

Conversational Editing funktioniert wie bei v1, ist aber spürbar genauer: „Mach das Hemd dunkler, ohne den Faltenwurf zu ändern" wird konsequenter respektiert. Edits über 5+ Turns bleiben stabil.

Schwächen: Der Reasoning-Modus ist langsamer — wer schnelle Iterationen braucht, schaltet ihn ab und arbeitet mit der Standard-Pipeline. Inhaltsfilter sind weiter strenger als bei FLUX oder SDXL, was für Werbung selten ein Problem ist, für künstlerische Arbeit aber. EU-Datenresidenz bleibt Enterprise-Feature.

Empfohlen für alle, die GPT Image 1 schon im Workflow hatten — Upgrade lohnt sich für Print, Layout-lastige Arbeit und Multi-Reference-Komposition. Für reine schnelle Mood-Bilder bleibt der Standard-Modus die richtige Wahl.

Screenshot

Screenshot der GPT Image 2-Website
GPT Image 2 · Website-Screenshot1280 × 800

Pro & Contra

+ Pro
  • Reasoning-Schritt vor jeder Generierung (denkt Komposition durch)
  • Native 4K-Auflösung ohne Upscaler
  • Texttreue jetzt mit Layout-Verständnis (Spalten, Tabellen)
  • Multi-Image-Composition wie Nano Banana
− Contra
  • Reasoning-Modus erhöht Latenz auf 8–15 Sek.
  • Pro-Bild-Kosten weiter über Open-Source-Modellen
  • Inhaltsfilter strenger als FLUX/SDXL
  • Datenresidenz USA bleibt (EU optional Enterprise)

Anwendungsfälle

Marketing-VisualsKonzept-MockupsEditorial-IllustrationenSocial-Media-Posts

Verwandte Tools