Video & Audio · OpenAI

Sora 2

OpenAIs zweite Generation des Text-zu-Video-Modells — bis zu 60 Sek., physikalisch konsistente Szenen, Native-Audio inklusive Dialog und Sound-Design.

DSGVO bedingt· USA

Sora 2 ist OpenAIs zweite Generation des Text-zu-Video-Modells — vorgestellt im Dezember 2025, seit Februar 2026 allgemein verfügbar. Wer Sora 1 als technische Demo wahrgenommen hat (mit knappen 20-Sek-Clips ohne Audio), bekommt mit v2 ein Tool, das tatsächlich produktionsreifen Output liefert.

Die wichtigste Neuerung ist Native Audio: Dialog, Atmosphären-Sounds, Musik werden in einem Pass mit dem Video generiert — nicht nachträglich aufgesetzt. Lippen-Synchronisation funktioniert in den meisten Fällen out-of-the-Box. Damit fällt einer der größten Workflow-Stolpersteine der Konkurrenten weg.

Die zweite Neuerung ist die physikalisch konsistente Bewegung über bis zu 60 Sekunden. Ein Wasserglas, das umfällt, gießt seinen Inhalt in plausibler Richtung aus; eine Person, die durch eine Tür geht, behält dieselbe Kleidung und denselben Haarstil; ein Auto bremst mit nachvollziehbarer Trägheit. Konkurrenten wie Veo 3 oder Kling sind in einzelnen Disziplinen ebenbürtig, aber Sora 2 liegt in der Gesamtkonsistenz aktuell vorn.

Der Storyboard-Modus ist die dritte große Neuerung: Mehrere Szenen mit demselben Charakter werden in einem Workflow generiert, ohne dass die Person zwischen Cuts wechselt. Für Werbe-Spots und Kurz-Filme ein konstitutiver Vorteil.

Image-zu-Video funktioniert mit Foto, Skizze oder gerendertem Standbild als Startpunkt — die häufigste Variante für Storyboarding-Workflows, die mit GPT Image 2 oder Nano Banana Pro 2 beginnen.

4K-Output (3840×2160) ist neu und ohne Upscaler-Pipeline — Print-, Display- und Streaming-Workflows kommen ohne Nachbearbeitung aus.

Schwächen: Die Generierungszeit liegt bei 1–4 Minuten pro Clip — wer iterativ arbeiten will, wartet spürbar. Die API-Quoten im Plus-Tarif (50 Standard-Clips/Mon.) sind knapp — Power-User landen schnell im Pro- oder Studio-Tarif. Inhaltsfilter sind strenger als bei Veo 3 oder Kling — bestimmte historische, politische oder dokumentarische Stilisierungen werden blockiert. EU-Datenresidenz bleibt Enterprise-Feature.

Empfohlen für Werbe- und Filmteams, die kurze produktionsreife Video-Sequenzen brauchen — und für jeden, der Native-Audio in einem Pass mit dem Bild generieren will, ohne separaten Voice-Over-Workflow.

Screenshot

Screenshot der Sora 2-Website
Sora 2 · Website-Screenshot1280 × 800

Pro & Contra

+ Pro
  • Physikalisch konsistente Bewegung über 60 Sek.
  • Native Audio mit Dialog und Sound-Design
  • Charakter-Konsistenz über mehrere Shots
  • Storyboard-Modus mit getrennten Szenen
− Contra
  • Generierungszeit 1–4 Min. pro Clip
  • API-Quoten knapp im Plus-Tarif
  • Inhaltsfilter strenger als Konkurrenten
  • EU-Datenresidenz nur Enterprise

Anwendungsfälle

Werbe-SpotsKurz-FilmeStoryboard-AnimationSocial-Media-Reels

Verwandte Tools