Video & Audio · Google DeepMind

Veo 3

Googles dritte Generation des Veo-Modells — Native-Audio, deutlich besseres Cinematic-Reasoning, in Vertex AI und Flow direkt verfügbar.

DSGVO-konform· USA

Veo 3 ist Google DeepMinds dritte Generation des Veo-Modells — vorgestellt auf der I/O 2025, seit Spätsommer 2025 in Gemini Advanced und Flow integriert. Damit ist Google direkter Konkurrent zu Sora 2 in einer Disziplin, die historisch eher OpenAI dominiert hat.

Das Modell hat in zwei Disziplinen besonders aufgeholt. Erstens Cinematic-Reasoning: Veo 3 versteht Kamera-Sprache deutlich besser — Dolly-Shots, Crane-Bewegungen, Zoom-Ins, Establishing-Shots werden so umgesetzt, wie ein Filmemacher es erwartet. Für Werbe- und Music-Video-Workflows ein konstitutiver Vorteil.

Zweitens Native Audio: Atmosphären-Sounds, Musik und gelegentlich Dialog werden mit dem Video in einem Pass generiert. Die Sound-Designs sind oft überraschend präzise — eine Straßenszene bekommt passende Verkehrsgeräusche, eine Wald-Szene bekommt Vogelgezwitscher mit korrektem Rauminhalt.

Die Integration in das Google-Ökosystem ist die strategische Stärke: Vertex AI für Engineering-Workflows mit EU-Datenresidenz, Gemini App für End-Anwender:innen, Google Flow als kreatives Studio mit Storyboarding und Multi-Scene-Management. Wer im Google-Workspace arbeitet, hat hier einen besonders kurzen Weg.

Image-zu-Video funktioniert nahtlos mit Imagen-3- oder Nano-Banana-Pro-2-Outputs — ein Standbild aus einem dieser Modelle wird in Veo 3 zu einem 8-Sek-Clip animiert, ohne Re-Encode.

Die Cinematic-Camera-Controls sind explizit: Statt nur „Kamera bewegt sich nach rechts" zu schreiben, lassen sich Dolly-In, Crane-Up, Tilt-Down als typed Parameter setzen. Für präzise Storyboard-Frames ein wichtiger Workflow-Vorteil.

EU-Datenresidenz über Vertex AI ist ein klarer Vorteil gegenüber Sora 2, das diese Option nur Enterprise bietet — für DSGVO-sensible Werbe- und Marketing-Workflows oft entscheidend.

Schwächen: Die maximale Clip-Länge liegt bei 8 Sekunden (Sora 2 schafft 60); zusammenhängende längere Sequenzen brauchen Storyboarding mit Multi-Clip-Stitching. Die Quoten in der Free-Stufe sind sehr knapp (3 Clips / Monat), Power-User landen schnell im Bezahltarif. Dialog-Lippen-Synchronisation ist noch nicht ganz auf Sora-2-Niveau.

Empfohlen für Werbe-, Marketing- und Music-Video-Teams, die im Google-Ökosystem arbeiten — und für DSGVO-sensible Workflows, in denen EU-Datenresidenz Pflicht ist.


Update Mai 2026 — Google I/O 2026: Auf der I/O 2026 hat Google Gemini Omni als neue, übergreifende Generative-Media-Modell-Familie vorgestellt — ein Modell, das Video, Bild, Audio und Text in einem Pass aus beliebigen Inputs generiert. Veo 3 bleibt das eigenständige Video-Spezial-Modell mit Cinematic-Reasoning und 8-Sek-Clips; Gemini Omni ergänzt es für längere, Multi-Modal kombinierte Workflows in der Gemini App, in Google Flow und in der YouTube Shorts Remix-Funktion. Veo-Nutzer:innen behalten ihren bestehenden Workflow; wer multimodale Inputs mischen will, greift zusätzlich zu Omni.

Screenshot

Screenshot der Veo 3-Website
Veo 3 · Website-Screenshot1280 × 800

Pro & Contra

+ Pro
  • Native-Audio mit Sound-FX und Musik
  • Sehr starkes Cinematic-Reasoning
  • EU-Datenresidenz über Vertex AI
  • Bestens in Google-Workspace und Flow integriert
− Contra
  • Quoten in Free-Stufe sehr knapp
  • Maximale Clip-Länge 8 Sek. (Sora kann 60)
  • Inhaltsfilter im Free-Tarif streng
  • Dialog-Lippen-Synchronisation noch hinter Sora

Anwendungsfälle

Werbe-VisualsCinematic-MockupsMusic-VideosMarketing-Reels

Verwandte Tools