Google Whisk
Googles Experimental-Tool für visuelles Remixen — Bilder werden zu „Subjekt + Szene + Stil" und zu neuen Bildern kombiniert, powered by Imagen 3 + Gemini.
Google Whisk ist seit Dezember 2024 das wahrscheinlich originellste Bildgenerierungs-Experiment aus den Google Labs. Statt eines Text-Prompts werden drei Bilder als Input genutzt: ein Subjekt-Bild, ein Szene-Bild und ein Stil-Bild. Gemini schreibt im Hintergrund einen passenden Prompt, Imagen 3 generiert das Endbild. Das Ergebnis: Eine Form von visuellem Brainstorming, die mit reinen Text-Tools nur schwer zu erreichen ist.
Der Workflow ist erfrischend anders. Statt zu beschreiben, was man will, lädt man Beispiele hoch — eine Postkarte, ein Foto, ein Gemälde. Whisk extrahiert daraus die jeweils relevante Information (Form, Setting, Look) und kombiniert sie. Das macht das Tool besonders stark für Designer:innen ohne Prompt-Erfahrung und für die schnelle Exploration im Konzept-Stadium.
Das Auto-Prompt-Feature ist transparent: Gemini zeigt den generierten Prompt an, lässt sich editieren und neu generieren. Wer Prompt-Engineering lernen will, sieht hier in Echtzeit, wie professionelle Bildbeschreibungen formuliert werden.
Die Bildqualität liegt auf Imagen-3-Niveau — solide, aber nicht ganz auf Nano-Banana-Pro-2-Niveau. Für Konzept-Arbeit reicht das in 90% der Fälle; für finale Production-Bilder muss meist nachbearbeitet werden.
Die Iterative Remix-Variation erzeugt pro Edit eine kleine Galerie — gut, um schnell Alternativen zu vergleichen, ohne jede Variation einzeln zu prompten.
Schwächen: Whisk bleibt Public Preview — Limits ändern sich, Features kommen und gehen. Nur Englisch-UI, deutsche Beschreibungen werden teils nicht ideal verstanden. Kein API-Zugang macht das Tool nur für Web-Workflows brauchbar. Datenresidenz USA, was für DSGVO-sensible Workflows ein Ausschlusskriterium ist.
Empfohlen für Designer:innen und Konzept-Künstler:innen, die visuelle Brainstorming-Sessions führen — und für jeden, der mit Bildern statt Text-Beschreibungen arbeiten will, weil das schneller und direkter ist.
Screenshot

Pro & Contra
- Bilder statt Text als Input — schneller Einstieg
- Subjekt-/Szene-/Stil-Trennung sehr nützlich
- Hohe Imagen-3-Qualität
- Komplett kostenlos in Public Preview
- Public Preview, Limits können sich ändern
- Nur Englisch-UI
- Kein API-Zugang
- Datenresidenz USA
Anwendungsfälle
Verwandte Tools
Playground
Browser-Studio mit FLUX, Stable Diffusion und einem aufgeräumten Layered-Editor — Pixar-bis-Photoreal in einer Oberfläche, ohne lokale Installation.
Lexica
Stable-Diffusion-basierter Generator mit der wahrscheinlich besten Prompt-Suchmaschine — Millionen kuratierte Prompts plus saubere Generation in einem Tool.
Higgsfield
Cinematic-First-Bildgenerator mit über 80 Kamerabewegungs- und Style-Effekten — von Bullet-Time bis Tilt-Shift in einem Klick auf jedes Foto anwendbar.