Veo 3
Googles dritte Generation des Veo-Modells — Native-Audio, deutlich besseres Cinematic-Reasoning, in Vertex AI und Flow direkt verfügbar.
Veo 3 ist Google DeepMinds dritte Generation des Veo-Modells — vorgestellt auf der I/O 2025, seit Spätsommer 2025 in Gemini Advanced und Flow integriert. Damit ist Google direkter Konkurrent zu Sora 2 in einer Disziplin, die historisch eher OpenAI dominiert hat.
Das Modell hat in zwei Disziplinen besonders aufgeholt. Erstens Cinematic-Reasoning: Veo 3 versteht Kamera-Sprache deutlich besser — Dolly-Shots, Crane-Bewegungen, Zoom-Ins, Establishing-Shots werden so umgesetzt, wie ein Filmemacher es erwartet. Für Werbe- und Music-Video-Workflows ein konstitutiver Vorteil.
Zweitens Native Audio: Atmosphären-Sounds, Musik und gelegentlich Dialog werden mit dem Video in einem Pass generiert. Die Sound-Designs sind oft überraschend präzise — eine Straßenszene bekommt passende Verkehrsgeräusche, eine Wald-Szene bekommt Vogelgezwitscher mit korrektem Rauminhalt.
Die Integration in das Google-Ökosystem ist die strategische Stärke: Vertex AI für Engineering-Workflows mit EU-Datenresidenz, Gemini App für End-Anwender:innen, Google Flow als kreatives Studio mit Storyboarding und Multi-Scene-Management. Wer im Google-Workspace arbeitet, hat hier einen besonders kurzen Weg.
Image-zu-Video funktioniert nahtlos mit Imagen-3- oder Nano-Banana-Pro-2-Outputs — ein Standbild aus einem dieser Modelle wird in Veo 3 zu einem 8-Sek-Clip animiert, ohne Re-Encode.
Die Cinematic-Camera-Controls sind explizit: Statt nur „Kamera bewegt sich nach rechts" zu schreiben, lassen sich Dolly-In, Crane-Up, Tilt-Down als typed Parameter setzen. Für präzise Storyboard-Frames ein wichtiger Workflow-Vorteil.
EU-Datenresidenz über Vertex AI ist ein klarer Vorteil gegenüber Sora 2, das diese Option nur Enterprise bietet — für DSGVO-sensible Werbe- und Marketing-Workflows oft entscheidend.
Schwächen: Die maximale Clip-Länge liegt bei 8 Sekunden (Sora 2 schafft 60); zusammenhängende längere Sequenzen brauchen Storyboarding mit Multi-Clip-Stitching. Die Quoten in der Free-Stufe sind sehr knapp (3 Clips / Monat), Power-User landen schnell im Bezahltarif. Dialog-Lippen-Synchronisation ist noch nicht ganz auf Sora-2-Niveau.
Empfohlen für Werbe-, Marketing- und Music-Video-Teams, die im Google-Ökosystem arbeiten — und für DSGVO-sensible Workflows, in denen EU-Datenresidenz Pflicht ist.
Update Mai 2026 — Google I/O 2026: Auf der I/O 2026 hat Google Gemini Omni als neue, übergreifende Generative-Media-Modell-Familie vorgestellt — ein Modell, das Video, Bild, Audio und Text in einem Pass aus beliebigen Inputs generiert. Veo 3 bleibt das eigenständige Video-Spezial-Modell mit Cinematic-Reasoning und 8-Sek-Clips; Gemini Omni ergänzt es für längere, Multi-Modal kombinierte Workflows in der Gemini App, in Google Flow und in der YouTube Shorts Remix-Funktion. Veo-Nutzer:innen behalten ihren bestehenden Workflow; wer multimodale Inputs mischen will, greift zusätzlich zu Omni.
Screenshot

Pro & Contra
- Native-Audio mit Sound-FX und Musik
- Sehr starkes Cinematic-Reasoning
- EU-Datenresidenz über Vertex AI
- Bestens in Google-Workspace und Flow integriert
- Quoten in Free-Stufe sehr knapp
- Maximale Clip-Länge 8 Sek. (Sora kann 60)
- Inhaltsfilter im Free-Tarif streng
- Dialog-Lippen-Synchronisation noch hinter Sora
Anwendungsfälle
Verwandte Tools
Gemini Omni
Googles I/O-2026-Generative-Media-Modell — erzeugt aus jedem Input (Text, Bild, Audio, Video) jeden Output, mit deutlich verbessertem Physik-Verständnis.
Google Flow
Googles kreatives Studio für KI-Filmemacher:innen — Storyboarding, Multi-Scene-Komposition, Music-Video-Direction und Vibe-Coding eigener Tools in einer Plattform.
Sora 2
OpenAIs zweite Generation des Text-zu-Video-Modells — bis zu 60 Sek., physikalisch konsistente Szenen, Native-Audio inklusive Dialog und Sound-Design.