Alibaba veröffentlicht mit Wan2.2 die branchenweit ersten Open-Source-Modelle zur Generierung großer Videos, die eine MoE-Architektur (Mixture-of-Experts) integrieren. Sie werden Kreative und Entwickler in die Lage versetzen, mit einem einzigen Klick Videos in Kinoqualität zu produzieren.
Die Wan2.2-Serie umfasst das Text-zu-Video-Modell Wan2.2-T2V-A14B und das Bild-zu-Video-Modell Wan2.2-I2V-A14B sowie Wan2.2-TI2V-5B, ein Hybridmodell, das sowohl Text-zu-Video- als auch Bild-zu-Video-Generierungsaufgaben in einem einzigen, einheitlichen Framework unterstützt.
Wan2.2-T2V-A14B und Wan2.2-I2V-A14B basieren auf der MoE-Architektur und wurden mit sorgfältig ausgewählten ästhetischen Daten trainiert. Sie generieren Videos in Kinoqualität und mit einer hohen Ästhetik und bieten den Erstellern präzise Kontrolle über wichtige Dimensionen wie Beleuchtung, Tageszeit, Farbtöne, Kamerawinkel, Bildgröße, Komposition, Brennweite und mehr.
Die beiden MoE-Modelle zeigen auch deutliche Verbesserungen bei der Erzeugung komplexer Bewegungen – darunter lebhafte Gesichtsausdrücke, dynamische Handgesten und komplizierte Sportbewegungen. Darüber hinaus liefern die Modelle realistische Darstellungen mit verbesserter Befolgung von Anweisungen und Einhaltung physikalischer Gesetze.
Um den hohen Rechenaufwand bei der Videogenerierung durch lange Tokens zu bewältigen, implementieren Wan2.2-T2V-A14B und Wan2.2-I2V-A14B ein Zwei-Experten-Design im Denoising-Prozess von Diffusionsmodellen, darunter einen Experten für hohe Rauschwerte, der sich auf das gesamte Szenenlayout konzentriert, und einen Experten für niedrige Rauschwerte, der Details und Texturen verfeinert. Obwohl beide Modelle insgesamt 27 Milliarden Parameter umfassen, werden pro Schritt nur 14 Milliarden Parameter aktiviert, wodurch der Rechenaufwand um bis zu 50 Prozent reduziert wird.
Wan2.2 verfügt über eine fein abgestimmte ästhetische Optimierung durch ein von der Filmkunst inspiriertes Prompt-System, das wichtige Dimensionen wie Beleuchtung, Lichtverhältnisse, Komposition und Farbtöne kategorisiert. Dieser Ansatz ermöglicht es Wan2.2, die ästhetischen Absichten der Nutzer während des Generierungsprozesses genau zu interpretieren und umzusetzen.
Um die Generalisierungsfähigkeiten und die kreative Vielfalt zu verbessern, wurde Wan2.2 auf einem wesentlich größeren Datensatz trainiert, der im Vergleich zu Wan2.1 eine Steigerung der Bilddaten um 65,6 Prozent und der Videodaten um 83,2 Prozent aufweist. Wan2.2 zeigt eine verbesserte Leistung bei der Erzeugung komplexer Szenen und Bewegungen sowie eine verbesserte Fähigkeit zum künstlerischen Ausdruck.
Ein kompaktes Modell zur Verbesserung der Effizienz und Skalierbarkeit
Wan2.2 führt außerdem sein Hybridmodell Wan2.2-TI2V-5B ein, ein dichtes Modell, das eine hochkomprimierte 3D-VAE-Architektur nutzt, um eine zeitliche und räumliche Komprimierungsrate von 4x16x16 zu erreichen, wodurch die Gesamtinformationskomprimierungsrate auf 64 verbessert wird. Das TI2V-5B kann ein fünfsekündiges 720P-Video in wenigen Minuten auf einer einzigen GPU für Endverbraucher erstellen und bietet Entwicklern und Content-Erstellern damit Effizienz und Skalierbarkeit.
Die Wan2.2-Modelle können auf Hugging Face und GitHub sowie in der Open-Source-Community ModelScope von Alibaba Cloud heruntergeladen werden. Als wichtiger Beitrag zur globalen Open-Source-Community hat Alibaba im Februar 2025 vier Wan2.1-Modelle und im Mai 2025 Wan 2.1-VACE (Video All-in-one Creation and Editing) als Open Source veröffentlicht. Bis heute wurden die Modelle auf Hugging Face und ModelScope über 5,4 Millionen Mal heruntergeladen.