隨著以 Sora 為代表的視頻生成模型技術(shù)的演進(jìn),長(zhǎng)視頻生成領(lǐng)域在維持長(zhǎng)時(shí)序內(nèi)容一致性以及平衡生成質(zhì)量與計(jì)算資源效率方面面臨挑戰(zhàn)。浙江大學(xué) 鯤鵬昇騰科教創(chuàng)新卓越中心計(jì)算機(jī)學(xué)院研究員朱霖潮團(tuán)隊(duì)基于此課題持續(xù)深耕并取得重要進(jìn)展。依托昇騰AI基礎(chǔ)軟硬件平臺(tái),該團(tuán)隊(duì)提出的技術(shù)方案有效提升了長(zhǎng)視頻內(nèi)容一致性,同時(shí)顯著優(yōu)化了視頻生成過(guò)程中的計(jì)算效率。
針對(duì)長(zhǎng)序列視覺(jué)指令生成的核心技術(shù)難題,項(xiàng)目團(tuán)隊(duì)成功研發(fā)首個(gè)無(wú)需訓(xùn)練的長(zhǎng)序列視覺(jué)指令生成框架LIGER,實(shí)現(xiàn)了歷史提示和視覺(jué)記憶機(jī)制,以及基于DDIM反演的記憶校準(zhǔn)技術(shù)。依托昇騰的編碼加速能力,通過(guò)對(duì)每個(gè)步驟的圖像特征進(jìn)行采樣和存儲(chǔ),捕捉前序步驟中的關(guān)鍵視覺(jué)信息,并將其注入到自注意力機(jī)制中,確保步驟間的視覺(jué)連貫性。同時(shí),通過(guò)自反思機(jī)制糾正圖像中的屬性錯(cuò)誤、邏輯錯(cuò)誤、對(duì)象冗余和身份不一致等問(wèn)題,使用多種圖像編輯工具進(jìn)行精確修正。該系統(tǒng)在長(zhǎng)序列任務(wù)中展現(xiàn)出優(yōu)異的邏輯連貫性和對(duì)象屬性準(zhǔn)確性,顯著提升了視覺(jué)指令的理解性和實(shí)用性。
在計(jì)算效率方面,項(xiàng)目團(tuán)隊(duì)提出了基于昇騰平臺(tái)優(yōu)化的引導(dǎo)式漸進(jìn)蒸餾方法,通過(guò)在線教師引導(dǎo)、漸進(jìn)式蒸餾和高頻細(xì)節(jié)保護(hù)三項(xiàng)關(guān)鍵技術(shù),成功加速了視頻擴(kuò)散模型的生成過(guò)程。該方法讓教師模型實(shí)時(shí)優(yōu)化學(xué)生模型的中間預(yù)測(cè)以創(chuàng)建自適應(yīng)訓(xùn)練目標(biāo),通過(guò)多階段訓(xùn)練逐步增加步長(zhǎng)將復(fù)雜軌跡學(xué)習(xí)分解為可管理的任務(wù),并引入頻域損失函數(shù)保持視頻精細(xì)細(xì)節(jié)。在保持視頻高質(zhì)量輸出基礎(chǔ)上,該方法實(shí)現(xiàn)8倍加速。
該項(xiàng)目創(chuàng)新性地將大語(yǔ)言模型推理能力與視頻生成技術(shù)相結(jié)合,為多模態(tài)交互研究開(kāi)辟了新方向。目前,研究成果已成功入選人工智能頂級(jí)會(huì)議ICLR 2025,獲得國(guó)際學(xué)術(shù)界的高度認(rèn)可。項(xiàng)目構(gòu)建的包含569個(gè)任務(wù)的評(píng)估數(shù)據(jù)集,為后續(xù)研究提供了重要基準(zhǔn)。
未來(lái),浙江大學(xué) 鯤鵬昇騰科教創(chuàng)新卓越中心將依托昇騰AI基礎(chǔ)軟硬件平臺(tái),持續(xù)深化產(chǎn)學(xué)研協(xié)同創(chuàng)新,著力突破多模態(tài)生成技術(shù)的核心瓶頸,構(gòu)建自主創(chuàng)新、技術(shù)領(lǐng)先的多模態(tài)生成技術(shù)生態(tài)體系,并為國(guó)家人工智能戰(zhàn)略與數(shù)字經(jīng)濟(jì)發(fā)展儲(chǔ)備核心創(chuàng)新力量。
