7月29日消息,阿里云宣布通義萬相重磅開源,通義萬相2.2正式開源,包括開源文生視頻Wan2.2-T2V-A14B、圖生視頻Wan2.2-I2V-A14B、統一視頻生成Wan2.2-TI2V-5B。
即日起,用戶可在GitHub、HuggingFace、魔搭社區下載模型和代碼,也可在通義萬相官網和通義APP直接體驗。
文生視頻模型和圖生視頻模型均為業界首個使用MoE架構的視頻生成模型,總參數量為27B,激活參數14B;同時,首創電影美學控制系統,光影、色彩、構圖、微表情等能力媲美專業電影水平。
Wan2.2-T2V-A14B、Wan2.2-I2V-A14B兩款模型均由高噪聲專家模型和低噪專家模型組成,分別負責視頻的整體布局和細節完善,在同參數規模下,可節省約50%的計算資源消耗,在模型能上,通義萬相2.2在復雜運動生成、人物交互、美學表達、復雜運動等維度上也取得了顯著提升。
統一視頻生成Wan2.2-TI2V-5B是一款5B小尺寸的模型,單一模型同時支持文生視頻和圖生視頻,可在消費級顯卡部署。
該模型采用了高壓縮率3D VAE架構,時間與空間壓縮比達到高達 4×16×16,信息壓縮率提升至 64,均實現了開源模型的最高水平,僅需22G顯存(單張消費級顯卡)即可在數分鐘內生成5秒高清視頻,是目前24幀每秒、720P像素級視頻生成速度最快的基礎模型。