Descript
Audio- und Videoschnitt im Text-Editor-Modus — schneiden = Tippen, KI macht den Rest.
Descript hat die Audio- und Video-Bearbeitung in den letzten Jahren neu definiert: Statt mit Wellenformen und Timeline-Knipsern zu arbeiten, schneidet man im Transkript — ein gelöschtes Wort entfernt automatisch die entsprechende Audio-Sekunde. Wer einmal so produziert hat, kehrt selten zu Audacity oder Premiere zurück, wenn es um Sprache geht.
Die Magie steckt im KI-Backbone: Overdub klont die eigene Stimme und ermöglicht Korrekturen ohne erneutes Mikrofon-Setup. Studio Sound entfernt Hintergrundlärm, Hall und Echo in einem einzigen Klick und bringt das Audio auf ein Niveau, für das früher ein Recording-Studio nötig war. Eye Contact richtet den Blick eines Sprechers in die Kamera, selbst wenn er auf dem zweiten Monitor abgelesen hat.
Mit Underlord (2024 hinzugekommen) hat Descript einen agentischen KI-Editor eingeführt, der ganze Podcast-Episoden auf Wunsch automatisch schneidet — Versprecher raus, Werbeblöcke an die richtige Stelle, Kapitelmarken setzen.
Schwächen: Bei sehr großen Projekten (mehrstündige Multi-Track-Sessions) merkt man die App-Architektur. Voice-Clone und höhere Stunden-Limits sind in den teureren Tarifen hinter Paywalls. Eine offizielle API fehlt — wer Descripts Magie programmatisch nutzen möchte, ist auf Web-UI-Workflows angewiesen.
Screenshot

Pro & Contra
- Text-basierter Audio-/Video-Edit
- Overdub Voice Clone
- Studio Sound (Noise Removal in einem Klick)
- Multitrack mit Live-Transkription
- Performance bei sehr langen Projekten
- Voice-Clone-Tarife teuer
- Kein offizieller API-Zugang
Anwendungsfälle
Verwandte Tools
Gemini Omni
Googles I/O-2026-Generative-Media-Modell — erzeugt aus jedem Input (Text, Bild, Audio, Video) jeden Output, mit deutlich verbessertem Physik-Verständnis.
Google Flow
Googles kreatives Studio für KI-Filmemacher:innen — Storyboarding, Multi-Scene-Komposition, Music-Video-Direction und Vibe-Coding eigener Tools in einer Plattform.
Sora 2
OpenAIs zweite Generation des Text-zu-Video-Modells — bis zu 60 Sek., physikalisch konsistente Szenen, Native-Audio inklusive Dialog und Sound-Design.