Technik

KI-Bildgenerierung: Von Diffusion zu Video

10. Februar 2026 · 9 Min. Lesezeit
KI-Bildgenerierung: Von Diffusion zu Video
Aufmacher · IllustrationCognitor Media (Nano Banana)

Diffusionsmodelle

Diffusionsmodelle haben in den letzten vier Jahren die KI-Bildgenerierung dominiert. Das Grundprinzip: Während des Trainings wird Bildern schrittweise Rauschen hinzugefügt. Das Modell lernt, diesen Prozess umzukehren — von purem Rauschen zurück zu einem strukturierten Bild.

Im Einsatz funktioniert das wie folgt: Aus zufälligem Rauschen entwickelt das Modell in mehreren Schritten (typisch 20 bis 50) ein Bild, das einer Textbeschreibung entspricht. Der eigentliche Trick liegt im Conditioning: Wie übersetzt man Text so in mathematische Vektoren, dass das Modell sie versteht?

Training

Das Training eines großen Diffusionsmodells (Stable Diffusion XL, Midjourney v6) erfordert hunderte Millionen Bild-Text-Paare und Wochen Rechenzeit auf hunderten GPUs. Die Rohdaten stammen meist aus Web-Crawls (LAION-5B war jahrelang der wichtigste Datensatz), was rechtlich umstritten ist.

Feintuning ist deutlich günstiger: Mit LoRA (Low-Rank Adaptation) lassen sich neue Stile oder Konzepte mit wenigen hundert Beispielbildern und einigen Stunden Training in ein bestehendes Modell injizieren. Diese Technik hat die Community-Modellvielfalt explodieren lassen.

Steuerung

Reine Text-Prompts geben oft nicht genug Kontrolle. Mehrere Verfahren erweitern die Steuerung:

  • ControlNet — Layouts, Posen, Tiefenkarten als zusätzliche Eingabe.
  • Inpainting — gezieltes Verändern einzelner Bildbereiche.
  • Style References — ein Beispielbild bestimmt den visuellen Stil.
  • IP-Adapter — übernimmt Charakteristika einer Referenz (Person, Stil) konsistent über mehrere Bilder.

Diese Techniken haben den Sprung von „interessanten Einzelbildern" zu produktionsreifen Workflows ermöglicht.

Video-Generation

Video erweitert Diffusion um eine zeitliche Dimension. Modelle wie Runway Gen-3, OpenAI Sora und Stability Stable Video Diffusion erzeugen heute kohärente Clips von 5 bis 10 Sekunden Länge.

Die Herausforderungen sind mehrfach: Konsistenz von Charakteren über mehrere Frames, physikalisch plausible Bewegungen, lange Sequenzen ohne sichtbare Übergänge. Die Forschung bewegt sich schnell — was 2024 noch Forschungsdemo war, ist 2026 in Werbung und Musikvideos angekommen.

Wir stehen bei KI-Video etwa dort, wo wir bei KI-Bild Mitte 2022 standen — mit allen damit verbundenen Erwartungen und Enttäuschungen.

Für anspruchsvolle Produktionen ergänzt KI-Video derzeit klassische Pipelines, ersetzt sie aber nicht. Das wird sich in den nächsten zwei Jahren ändern.

Verweise:
GrundlagenSprachmodelleDSGVOGeschichte