在杭州AI開(kāi)源生態(tài)大會(huì)暨“魔搭社區(qū)”(杭州)開(kāi)發(fā)者大會(huì)上,LongCat-Video 模型研究員康卓梁帶來(lái)了《LongCat-Video 高效長(zhǎng)視頻生成探索世界模型的第一步》的報(bào)告分享。

以下為演講全文:

實(shí)際上,我們布局視頻生成的整體思路是從視頻內(nèi)容生產(chǎn)逐步邁向世界模型。美團(tuán)作為互聯(lián)網(wǎng)企業(yè),擁有大量線上內(nèi)容資產(chǎn),目前雖以文圖為主,但隨著視頻時(shí)代的來(lái)臨,視頻內(nèi)容的表現(xiàn)力優(yōu)勢(shì)愈發(fā)凸顯。
因此,內(nèi)部各業(yè)務(wù)線存在強(qiáng)烈需求,需要將圖文資產(chǎn)升級(jí)為視頻形式。例如,美食圖片、商家宣傳圖、本地生活服務(wù)場(chǎng)景圖等,將其升級(jí)為視頻后,能更突出商家賣點(diǎn),吸引用戶消費(fèi);同時(shí)海報(bào)視頻化也是核心需求之一。服務(wù)好美團(tuán)內(nèi)部業(yè)務(wù)的視頻生產(chǎn)需求,正是 LongCat-Video 的基本定位與核心任務(wù)。
長(zhǎng)期來(lái)看,美團(tuán)未來(lái)希望能夠成為線上與線下世界的連接者。我們期望通過(guò)視頻生成任務(wù)壓縮物理世界知識(shí),為未來(lái)內(nèi)容創(chuàng)作、新型娛樂(lè)交互(如數(shù)字人)、自動(dòng)駕駛機(jī)器人等場(chǎng)景提供基礎(chǔ)的技術(shù)底座。基于這一差異化目標(biāo),我們將長(zhǎng)視頻生成作為核心方向。
未來(lái),視頻生成不僅服務(wù)于內(nèi)容創(chuàng)作,更將成為模擬物理世界的重要載體,流式長(zhǎng)視頻是我們的最終實(shí)現(xiàn)目標(biāo),這也是我們布局視頻生成的思路。

接下來(lái),我將介紹 LongCat-Video 的核心特點(diǎn)。當(dāng)前開(kāi)源社區(qū)已有諸多優(yōu)秀的視頻生成模型,包括 Wan 系列、混元等,因此我將聚焦分享我們模型的差異化特色。
2.1 多能力統(tǒng)一模型

第一個(gè)特色是單一模型多能力融合。我們的模型參數(shù)為 13.6B,可同時(shí)支持文生視頻、圖生視頻與視頻續(xù)寫功能。當(dāng)前多數(shù)模型采用任務(wù)拆分模式,文生視頻與圖生視頻分別依賴不同模型,而我們通過(guò)技術(shù)優(yōu)化實(shí)現(xiàn)了一模型全覆蓋,且各功能互不干擾。
常規(guī)圖生視頻常采用擴(kuò)維思路,將參考圖作為額外維度加入,而我們選擇更簡(jiǎn)潔的統(tǒng)一架構(gòu):文生視頻任務(wù)中全為噪聲標(biāo)記(Noise Token);圖生視頻任務(wù)將第一幀噪聲標(biāo)記替換為參考干凈幀;視頻續(xù)寫則是特殊場(chǎng)景,將多幀噪聲標(biāo)記替換為干凈幀。
在多任務(wù)融合過(guò)程中,我們總結(jié)出兩個(gè)關(guān)鍵要點(diǎn)。其一,預(yù)訓(xùn)練階段需將所有任務(wù)同步訓(xùn)練,確保各任務(wù)知識(shí)充分融合;其二,改進(jìn)注意力機(jī)制,采用 “Block-Causal” 模式,使視頻續(xù)寫任務(wù)能完美支持時(shí)序緩存(TV Cache),為長(zhǎng)視頻生成提供核心支撐。實(shí)驗(yàn)表明,三個(gè)模態(tài)不僅未出現(xiàn)性能退化,反而實(shí)現(xiàn)相互促進(jìn)。
2.1.1 文生視頻
2.1.2 圖生視頻
對(duì)創(chuàng)作者而言,圖生視頻是精準(zhǔn)控制生成效果的重要能力,但我們更關(guān)注通過(guò)不同指令,從同一初始狀態(tài)控制劇情的差異化走向。例如,基于同一張參考圖,輸入不同指令可生成“拿杯子”“拿水”“摸小熊”等不同動(dòng)作的視頻。
從長(zhǎng)期來(lái)看,若指令來(lái)自AI“大腦”,即可模擬機(jī)器人執(zhí)行不同動(dòng)作時(shí)物理世界的變化,這對(duì)物理世界模擬與仿真具有重要價(jià)值。
2.1.3 長(zhǎng)視頻生成
另一個(gè)功能就是我們的視頻續(xù)寫任務(wù),大家可以看到有兩個(gè)重點(diǎn)的特色。其一,支持持續(xù)多輪續(xù)寫與分鐘級(jí)長(zhǎng)視頻生成,現(xiàn)有案例已實(shí)現(xiàn)五分鐘視頻輸出,理論上算力充足時(shí)可繼續(xù)續(xù)寫的。其二,業(yè)界內(nèi)普遍共識(shí)當(dāng)視頻長(zhǎng)度超過(guò)二三十秒后,易出現(xiàn)色調(diào)偏移與質(zhì)量下降。我們通過(guò)三項(xiàng)技術(shù)解決這一問(wèn)題:預(yù)訓(xùn)練階段融入視頻續(xù)寫任務(wù)、采用 Block-Causal 注意力機(jī)制、攻克 GRPO 后訓(xùn)練技術(shù)。三者結(jié)合確保長(zhǎng)視頻生成過(guò)程中無(wú)質(zhì)量回退問(wèn)題。
2.1.4 交互式視頻生成
下面這個(gè)應(yīng)用是更具實(shí)際價(jià)值的——交互式視頻生成。在續(xù)寫過(guò)程中可通過(guò)實(shí)時(shí)輸入新指令調(diào)整劇情。例如,讓數(shù)字人完成“揮手→說(shuō)話→比心→飛吻”的連貫動(dòng)作,這對(duì)數(shù)字人交互場(chǎng)景極具價(jià)值。若指令由AI“大腦”輸出,數(shù)字人可根據(jù)用戶反應(yīng)實(shí)時(shí)調(diào)整動(dòng)作,對(duì)劇情創(chuàng)作而言,支持“邊生成邊構(gòu)思”,大幅提升創(chuàng)作靈活性,后續(xù)將展示更多具體案例。
2.2 ?高效生成
綜上,多功能統(tǒng)一是模型的核心特色,長(zhǎng)視頻生成與交互式視頻則是其主打亮點(diǎn)。接下來(lái)介紹另一大亮點(diǎn)——高效生成能力。
我們采用兩階段生成流程:第一階段先生成低分辨率、低幀率視頻,以低成本快速驗(yàn)證效果;確定效果符合預(yù)期后,第二階段通過(guò)優(yōu)化器(Refiner)模塊將其升級(jí)為高分辨率、高幀率視頻。
這一流程包含兩個(gè)差異化優(yōu)勢(shì)。其一,通過(guò)LoRA(Low-Rank Adaptation,低秩適配)技術(shù)構(gòu)建 Refiner 模塊,無(wú)需重新訓(xùn)練完整模型,僅疊加LoRA模塊即可,能高效復(fù)用模型已有知識(shí)。其二,支持分辨率與幀率同步超分,這一特性在社區(qū)中具有獨(dú)特價(jià)值。我們發(fā)現(xiàn)已有社區(qū)開(kāi)發(fā)者玩家將我們的Refiner模塊獨(dú)立使用,例如用Wan S2V 生成低幀率視頻后,通過(guò)我們的 Refiner 進(jìn)行超分優(yōu)化。
針對(duì)長(zhǎng)視頻生成,我們引入稀疏注意力機(jī)制,可額外提供近兩倍加速。該模塊已完整開(kāi)源,包含前向與反向?qū)崿F(xiàn)代碼,開(kāi)發(fā)者與社區(qū)同學(xué)可直接用于訓(xùn)練與推理場(chǎng)景。

數(shù)據(jù)顯示,相較于原生 720P 視頻生成,我們的優(yōu)化策略可提供十倍以上加速,且輸出幀率更高。以單卡推理速度為基準(zhǔn),8卡并行推理時(shí),生成一段視頻僅需十幾秒。
2.3 Multi-Reward+GRPO 訓(xùn)練
另一項(xiàng)對(duì)行業(yè)研發(fā)具有參考價(jià)值的成果,是我們攻克了 “Multi-Reward(多維度獎(jiǎng)勵(lì))+GRPO” 的訓(xùn)練難題,這一技術(shù)對(duì)模型效果提升至關(guān)重要。

我們實(shí)現(xiàn)了多維度聯(lián)合優(yōu)化,涵蓋圖像質(zhì)量、內(nèi)容一致性、動(dòng)態(tài)效果(Motion Quality)等維度,且訓(xùn)練過(guò)程中獎(jiǎng)勵(lì)值(Reward)穩(wěn)定上升。為實(shí)現(xiàn)這一目標(biāo),我們制定了一系列訓(xùn)練策略,最終發(fā)現(xiàn)分組尺寸設(shè)為4時(shí),即可實(shí)現(xiàn)穩(wěn)定訓(xùn)練。這對(duì)視頻生成這類高計(jì)算成本任務(wù)而言意義重大。

這里有一個(gè)具體例子:下面的圖是我們的 Base 模型生成結(jié)果,能看到人臉及背景存在模糊問(wèn)題;經(jīng)過(guò) GRPO 后訓(xùn)練,圖像質(zhì)量有顯著提升。這一效果也受益于 Multi-Reward 訓(xùn)練——若僅優(yōu)化圖像質(zhì)量獎(jiǎng)勵(lì),視頻動(dòng)態(tài)效果會(huì)僵化;多維度獎(jiǎng)勵(lì)結(jié)合可同時(shí)保障動(dòng)態(tài)性與畫面質(zhì)量的提升。


最后,介紹模型對(duì)社區(qū)用戶而言具有優(yōu)勢(shì)的應(yīng)用場(chǎng)景。
第一個(gè)是真實(shí)圖片做動(dòng),模型設(shè)計(jì)的核心定位之一是服務(wù)美團(tuán)內(nèi)部業(yè)務(wù),而我們的業(yè)務(wù)圖片多為真實(shí)場(chǎng)景素材,而非美化圖,避免虛假宣傳是基本要求。這一效果得益于多維度獎(jiǎng)勵(lì)訓(xùn)練:若僅優(yōu)化圖像質(zhì)量獎(jiǎng)勵(lì),視頻動(dòng)態(tài)效果會(huì)僵化;多維度獎(jiǎng)勵(lì)結(jié)合可同時(shí)保障動(dòng)態(tài)性與畫面質(zhì)量。
因此,模型需實(shí)現(xiàn)“既真又美”的效果,我們針對(duì)真實(shí)圖片視頻化場(chǎng)景進(jìn)行了定向強(qiáng)化,在美食、本地生活服務(wù)等圖片的視頻生成中,穩(wěn)定性表現(xiàn)優(yōu)異。
第二個(gè)場(chǎng)景是海報(bào)動(dòng)態(tài)化。美團(tuán)內(nèi)部有大量海報(bào)素材的動(dòng)態(tài)化需求,但通用模型生成海報(bào)視頻時(shí),常出現(xiàn)文字、Banner 抖動(dòng)問(wèn)題。我們針對(duì)該場(chǎng)景進(jìn)行定向優(yōu)化,模型可自動(dòng)識(shí)別固定元素(文字、標(biāo)識(shí))與動(dòng)態(tài)元素(背景、裝飾),確保海報(bào)動(dòng)效自然。
第三個(gè)應(yīng)用場(chǎng)景是交互式視頻生成:雖未在公司及社區(qū)大規(guī)模應(yīng)用,但具有重要探索價(jià)值。當(dāng)前視頻生成技術(shù)發(fā)展迅速,供給端效率提升、門檻降低,但消費(fèi)端體驗(yàn)未發(fā)生本質(zhì)變化——用戶仍以被動(dòng)觀看為主,內(nèi)容形式仍以觀點(diǎn)輸出、惡搞視頻、電影介紹等為主。我們布局世界模型與交互式視頻,正是希望探索新的內(nèi)容消費(fèi)模式與玩法。
例如,生成“人物跑步”的初始視頻,續(xù)寫時(shí)加入新劇情:第二段讓人物發(fā)現(xiàn)旁邊的杰尼龜并與之擊掌,第三段引入小火龍,最后讓人物騎上小火龍飛走。這種“邊生成邊構(gòu)思”的模式,支持劇情實(shí)時(shí)調(diào)整,創(chuàng)作者可完全主導(dǎo)內(nèi)容走向。
例如,初始劇情為“人物走進(jìn)房間”,第二段可設(shè)計(jì)“爺爺叫住他看報(bào)紙”,第三、四段為“兩人一同進(jìn)屋”,最后加入“一個(gè)女性走入畫框”的新角色,延伸后續(xù)劇情。該模式的趣味之處在于支持多分支劇情走向,如同平行世界。
例如,同一初始畫面“人物晨起舉手”,可衍生出不同劇情:一是“警察上門將其帶走”的惡搞走向;二是“伸懶腰后開(kāi)始工作”的職場(chǎng)走向,后續(xù)加入“貓?zhí)M(jìn)來(lái),人物與之互動(dòng)”的生活場(chǎng)景,甚至可引入第二只貓延續(xù)劇情。
可見(jiàn),不同創(chuàng)作者對(duì)同一初始場(chǎng)景可設(shè)計(jì)差異化劇情,這有望改變視頻生產(chǎn)與消費(fèi)的體驗(yàn)?zāi)J健?/p>
以上就是我的分享,謝謝大家!
目前,LongCat-Video 模型及代碼已全部開(kāi)源,大家可在 GitHub 和Hugging Face 上找到。
??GitHub:
https://github.com/meituan-longcat/LongCat-Video
??Hugging Face:
https://huggingface.co/meituan-longcat/LongCat-Video
完整案例詳情可點(diǎn)擊了解: https://mp.weixin.qq.com/s/mcJxXxUwOPSmEnv1hhFgMg