5分鐘AI長視頻不翻車!國產開源框架殺到全球第一梯隊
夢瑤 聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
AIGC發展到今天,分鐘翻車生成幾秒鐘的長視AI視頻真的已經不算新鮮事兒了。
但!國產專業拉票團隊難的開源框架地方在于,讓同一個角色在幾分鐘里始終保持一致(扎心.jpg)——
多鏡頭切換,全球臉可能變了,第梯隊換場景,分鐘翻車衣服發型開始漂;人物開口,長視音色前后接不上!國產!開源框架
問題不在模型「不會造夢」,全球而在于它很難「記住」這個夢……
![]()
△AI生成
也正因如此,長視頻生成遲遲未能進入全行業的分鐘翻車生產流程,更別說大規模商業化。長視
在長視頻生成集體卡殼的國產當下,剛剛,有團隊給出了一套新解法——
開源長音視頻生成框架JoyAI-Echo,并殺入全球長視頻生成領域全球「第一梯隊」。
把長視頻創作里角色一致性、音色穩定性、生成速度和畫面質量等生成痛點,一把梭哈~
哪怕是幾分鐘的視頻,多鏡頭、多場景、多段語音連續切換,人物形象和聲音也能狠狠穩住。
![]()
不僅如此,支持對話式編輯的Agent能力也一起安排上了,以后我們做視頻就像和導演聊天一樣了!
然后嘛,我再仔細一看,這套高性能開源框架,竟然來自——
京東?專業拉票團隊!屬實藏得太深……(震驚.jpg)
評測顯示,JoyAI-Echo在跨鏡頭一致性、語音準確率(0.8646)等指標上全面領先行業,甚至用戶偏好達59.4%~81.7%。
這下好了,AI視頻也能所見即所得了。
一個可交互、高一致性、可持續迭代的長視頻時代來了!
長視頻不再“跑偏”:高一致性、低延遲、實時超分
過去一年,AI視頻模型的競爭重點多集中在幾秒到幾十秒片段:畫質、運鏡、風格、物理合理性。
各家模型卷得飛起,效果確實肉眼可見地next level,各類Benchmark評測表現也都非常漂亮。
然鵝吧,在AI視頻生成似乎已經進入成熟期的今天,一個問題依然沒有被真正解決——長視頻生成。
原因很簡單:長視頻,對整個行業來說都《太難了》…….(扎心jpg)
![]()
相比短視頻生成,長視頻不僅是在時間維度上的簡單拉長,更意味著跨鏡頭、跨場景、跨動作的連續敘事。
但目前行業里的長視頻生成,仍然普遍存在幾個長期困境:
說話人的音色忽高忽低;生成速度也慢得離譜,往往要等上好幾分鐘才能看到結果。
這些問題背后,暴露的則是當前模型在長時序生成上的天然挑戰:
模型錯誤累積、長程時序一致性弱、推理延遲高。
最終帶來的結果就是,視頻里的人物會變臉,聲音會飄,生成還得等很久。
這些問題也直接限制了AI視頻在虛擬敘事、數字人助手、實時內容創作等場景中的進一步落地和「規模化應用」。
![]()
△AI生成
而JoyAI-Echo給出的解法是,通過跨模態音視頻記憶庫、記憶驅動后訓練、輕量化實時超分讓長視頻生成更穩。
哪怕是幾分鐘的視頻,我們也能絲滑拿下!!拒絕反復抽卡!!
跨模態音視頻記憶庫:角色再也不“變臉”
長視頻生成最讓人頭疼、行業最難啃的一塊骨頭,就是角色和聲音的「前后不一致」。
在JoyAI-Echo團隊看來,問題的根源在于現有模型缺乏真正意義上的長期記憶能力。
行業里傳統方案、通常依賴上下文窗口保存歷史信息,但隨著視頻長度增加,早期內容會逐漸被后續信息稀釋。
模型雖然能夠記住最近幾個鏡頭,卻很難穩定保存數分鐘之前的人物特征!!
而JoyAI-Echo的做法是——
直接在框架里塞進了一套「跨模態音視頻記憶庫」。
與其讓模型記住所有歷史內容,不如把最關鍵的身份信息保存下來,并在后續生成過程中持續調用。
這樣一來,即便視頻長度來到5分鐘,角色的身份、外觀和聲音依然能夠保持高度一致!!!
這套記憶庫最大的特點在于,它記錄的不只是人物長相,還會同步記錄說話人的音色,并將兩者綁定在一起。
當角色首次登場時,系統會提取其視覺特征和聲音特征寫入記憶庫;后續每生成一個鏡頭,都會從記憶庫中調取這些信息作為參考。
為了兼顧效果和效率,系統也不會無限擴展記憶,而是保留故事開頭的關鍵鏡頭,以及最近生成的鏡頭。
這樣既不會忘記主角最初長什么樣,也始終知道劇情剛剛推進到了哪里:
![]()
所以說JoyAI-Echo并不是讓模型擁有更大的記憶力,而是讓模型學會像人一樣記憶——
只保留最重要的信息,并在需要的時候準確調用。
而這套跨模態音視頻記憶機制,也成為JoyAI-Echo實現5分鐘長視頻高一致性生成的核心基礎~
記憶驅動后訓練:速度提升7.5倍
對于長視頻生成來說,一致性只是第一步,生成速度同樣決定了產品能不能真正落地。
為此JoyAI-Echo團隊在模型訓練之外,又專門設計了一套記憶驅動的后訓練流程,在不犧牲生成質量的前提下,把推理效率再往前推一步~
整個流程主要分為三步,首先通過SFT監督微調,讓模型學習高質量音視頻生成能力。
隨后利用人類反饋強化學習進一步優化人物一致性、畫面質量以及音畫同步效果。
最后再通過DMD(Distribution Matching Distillation)技術,將復雜的大模型能力壓縮到更高效的推理模型中。
![]()
△AI生成
在整個后訓練體系中,DMD是最關鍵的一環。
而且最最最最需要夸的一點是,僅DMD相關優化就帶來了約7.5倍的推理速度提升!!
我們可以把DMD理解成一次「能力濃縮」——
先讓一個能力更強、但推理速度較慢的教師模型完成完整生成流程,再讓一個更加輕量的學生模型去學習和復現教師模型的生成結果。
![]()
這樣一來,原本需要大量擴散步驟才能完成的生成任務,被壓縮成更少的推理步驟,模型卻依然能夠保持接近的生成效果。
如果說跨模態音視頻記憶庫解決的是「不要忘」,那么這套后訓練體系解決的就是「別太慢」。
一個負責守住長視頻的一致性,一個負責提升長視頻的生成效率。
兩者結合,才讓JoyAI-Echo真正具備了邁向長視頻生產工具的基礎能力~
輕量化實時超分:高清輸出不卡頓
一致性有了,速度也上來了,但長視頻生成還有最后一道坎兒——清晰度。
畢竟真到了數字人、品牌營銷、短劇創作這些場景里,誰也不希望最后拿到的是一個糊糊的視頻……
但問題是,當前業內通常采用「視頻生成+離線超分」的兩階段架構。
視頻先生成,再交給獨立超分模型處理。
這種方案雖然也能提高分辨率,但額外引入了一輪推理流程,不僅增加等待時間,還容易造成生成結果和超分結果的偏差。
意思就是,高清是高清了,可等待時間也跟著上去了。
![]()
△AI生成
而JoyAI-Echo給出的解決方法是,創新性地把超分能力直接塞進生成鏈路里。
具體來說,系統會先生成720P視頻和對應音頻,再通過輕量化實時超分模塊一步完成高清視頻和音頻細節增強。
整個超分過程只需要一次向前推理,就能直接輸出1K甚至2K分辨率結果~
這樣不僅畫面細節更豐富,音頻質量也會同步優化。
整個過程還不會明顯增加生成延遲,用戶也終于可以不用在「速度」和「清晰度」之間做選擇了。
對于數字人直播、實時創作、內容互動這些對延遲極其敏感的場景來說,高清輸出不卡頓,真的太香了……
Director Agent,專屬于你的AI視頻導演搭子!
大家都懂,現實中的影視制作,從來不是一次完成的。
過去的AI視頻生成,大多停留在一次性出片的階段。
從劇本、分鏡到拍攝、審片,再到返工和重拍,每一個環節都需要反復打磨。
如果其中某個鏡頭出現問題,創作者往往只能重新生成整條視頻,不僅耗時,也很難保證前后內容的一致性。
這也是AI長視頻長期難以真正進入生產環節的原因之一!!!
所以,創作者需要的并不只是一次性結果,還需要像真實拍攝一樣,擁有能夠規劃、生成、返工,甚至局部重拍的工具。
這個問題,JoyAI-Echo技術團隊也想到了,于是給視頻模型配了一位「AI導演」——Director Agent。
我們只需要用自然語言說需求,它會自動幫忙拆分成劇本、角色、場景和鏡頭~
![]()
具體來說,Director Agent整個技術鏈路被拆成:策劃、生成、點評修改三個階段。
在策劃階段,Agent更像一位「編劇兼導演」。
它會先理解用戶意圖,將一句自然語言需求擴展成完整的故事框架,補充角色設定、場景信息和敘事邏輯,再進一步拆解為鏡頭級規劃,最終生成符合模型訓練格式的結構化條件。
進入生成階段后,Agent又變成了一位「現場導演」。
它會根據當前鏡頭內容,從已經生成的歷史鏡頭中檢索最相關的信息,并將這些參考內容與當前劇本狀態一起整理成模型需要的輸入條件,讓生成模型能夠準確調用角色、場景和劇情上下文。
![]()
△AI生成
最后來到「點評修改」階段,這里反倒更像影視制作里的審片環節~
無論是用戶反饋,還是自動評價模型發現問題,只要角色形象、動作表現、對白內容或音畫同步出現偏差,Agent都能快速定位到具體鏡頭,重新調整對應條件和記憶信息!!!
而且最重要的是,Agent只對受影響的部分進行重生成,而不需要推倒重來,修改后的結果還會同步更新到后續劇情中,確保整個故事始終保持連貫一致~
也正因為如此,JoyAI-Echo不再只是一個負責生成視頻的模型,而更像是一套完整的長視頻創作系統。
殺入全球第一梯隊,長視頻生成開始靠近真實生產
光說不練假把式,從官方評測數據來看,JoyAI-Echo在長視頻生成的多個關鍵指標上,都展現出了領先表現。
在用戶盲測環節,研究團隊將JoyAI-Echo與目前代表性的長視頻模型進行了對比,結果顯示——
在長視頻任務中,用戶有63.6%的情況下更喜歡JoyAI-Echo生成的視頻畫面。
在音頻質量維度這一優勢甚至達到81.7%,提示詞遵循偏好為80.6%,IP一致性偏好為59.4%。
即使放在人像短視頻這一競爭最激烈的賽道中,與主流視頻模型相比,JoyAI-Echo依然獲得了更高的視覺美學用戶偏好(58.8%vs26.5%)。
而JoyAI-Echo的發布,也同樣標志著京東在長視頻生成領域進入「全球第一梯隊」:
![]()
過去幾年,AI視頻生成雖然發展迅速,但長視頻始終停留在一個略顯尷尬的位置:
演示效果驚艷,真正投入生產卻困難重重。
角色容易變臉、聲音容易漂移、生成速度過慢、修改成本極高……這些問題決定了大多數長視頻作品更像是技術Demo,而非真正意義上的生產工具。
而JoyAI-Echo試圖解決的,恰恰是這些長期困擾行業的核心瓶頸。
更重要的是,與許多閉源模型不同,JoyAI-Echo選擇了「開源」。
這意味著長視頻生成不再只是少數頭部公司的專屬能力,而開始成為一個能夠被開發者、創作者和研究者共同驗證、調用和迭代的開放工具。
![]()
△AI生成
技術框架提供了起點,開放則讓更多可能性慢慢長出來。
當一致性、高分辨率、Agent等能力被開源持續驗證和優化后,行業內長視頻生成的技術迭代速度可能進一步加快。
無論是虛擬IP故事、數字人內容、品牌營銷視頻,還是教育課件、知識講解、游戲動畫和互動劇情,高一致性、可控、可迭代的長視頻生產都能夠成為可能。
如果說過去的大模型解決的是「能不能生成視頻」的問題,那么JoyAI-Echo正在嘗試回答另一個更重要的問題:
AI能不能真正參與長視頻的內容生產創作?
從目前的結果來看,答案已經越來越接近肯定。
JoyAI-Echo帶來的,不僅是一款新的長視頻模型,更是一次AI視頻生產范式的推進。
當穩定記憶、實時交互、可控修改和高效生成開始同時出現時,AI長視頻正在從技術展示走向生產工具。
一個更穩定、更可控的AI長視頻時代,正在被推到臺前。
GitHub地址:
https://github.com/jd-opensource/JoyAI-Echo
項目主頁:
https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/