首頁熱點正文

5分鐘AI長視頻不翻車！國產開源框架殺到全球第一梯隊

新聞資訊網熱點 2026-06-15 14:56:44

夢瑤聞樂發自凹非寺
量子位 | 公眾號 QbitAI

AIGC發展到今天，分鐘翻車生成幾秒鐘的長視AI視頻真的已經不算新鮮事兒了。

但！國產專業拉票團隊難的開源框架地方在于，讓同一個角色在幾分鐘里始終保持一致（扎心.jpg）——

多鏡頭切換，全球臉可能變了，第梯隊換場景，分鐘翻車衣服發型開始漂；人物開口，長視音色前后接不上！國產！開源框架

問題不在模型「不會造夢」，全球而在于它很難「記住」這個夢……

△AI生成

也正因如此，長視頻生成遲遲未能進入全行業的分鐘翻車生產流程，更別說大規模商業化。長視

在長視頻生成集體卡殼的國產當下，剛剛，有團隊給出了一套新解法——

開源長音視頻生成框架JoyAI-Echo，并殺入全球長視頻生成領域全球「第一梯隊」。

把長視頻創作里角色一致性、音色穩定性、生成速度和畫面質量等生成痛點，一把梭哈～

哪怕是幾分鐘的視頻，多鏡頭、多場景、多段語音連續切換，人物形象和聲音也能狠狠穩住。

不僅如此，支持對話式編輯的Agent能力也一起安排上了，以后我們做視頻就像和導演聊天一樣了！

然后嘛，我再仔細一看，這套高性能開源框架，竟然來自——

京東？專業拉票團隊！屬實藏得太深……（震驚.jpg)

評測顯示，JoyAI-Echo在跨鏡頭一致性、語音準確率（0.8646）等指標上全面領先行業，甚至用戶偏好達59.4%~81.7%。

這下好了，AI視頻也能所見即所得了。

一個可交互、高一致性、可持續迭代的長視頻時代來了！

長視頻不再“跑偏”：高一致性、低延遲、實時超分

過去一年，AI視頻模型的競爭重點多集中在幾秒到幾十秒片段：畫質、運鏡、風格、物理合理性。

各家模型卷得飛起，效果確實肉眼可見地next level，各類Benchmark評測表現也都非常漂亮。

然鵝吧，在AI視頻生成似乎已經進入成熟期的今天，一個問題依然沒有被真正解決——長視頻生成。

原因很簡單：長視頻，對整個行業來說都《太難了》…….（扎心jpg)

相比短視頻生成，長視頻不僅是在時間維度上的簡單拉長，更意味著跨鏡頭、跨場景、跨動作的連續敘事。

但目前行業里的長視頻生成，仍然普遍存在幾個長期困境：

說話人的音色忽高忽低；生成速度也慢得離譜，往往要等上好幾分鐘才能看到結果。

這些問題背后，暴露的則是當前模型在長時序生成上的天然挑戰：

模型錯誤累積、長程時序一致性弱、推理延遲高。

最終帶來的結果就是，視頻里的人物會變臉，聲音會飄，生成還得等很久。

這些問題也直接限制了AI視頻在虛擬敘事、數字人助手、實時內容創作等場景中的進一步落地和「規模化應用」。

△AI生成

而JoyAI-Echo給出的解法是，通過跨模態音視頻記憶庫、記憶驅動后訓練、輕量化實時超分讓長視頻生成更穩。

哪怕是幾分鐘的視頻，我們也能絲滑拿下！！拒絕反復抽卡！！

跨模態音視頻記憶庫：角色再也不“變臉”

長視頻生成最讓人頭疼、行業最難啃的一塊骨頭，就是角色和聲音的「前后不一致」。

在JoyAI-Echo團隊看來，問題的根源在于現有模型缺乏真正意義上的長期記憶能力。

行業里傳統方案、通常依賴上下文窗口保存歷史信息，但隨著視頻長度增加，早期內容會逐漸被后續信息稀釋。

模型雖然能夠記住最近幾個鏡頭，卻很難穩定保存數分鐘之前的人物特征！！

而JoyAI-Echo的做法是——

直接在框架里塞進了一套「跨模態音視頻記憶庫」。

與其讓模型記住所有歷史內容，不如把最關鍵的身份信息保存下來，并在后續生成過程中持續調用。

這樣一來，即便視頻長度來到5分鐘，角色的身份、外觀和聲音依然能夠保持高度一致！！！

這套記憶庫最大的特點在于，它記錄的不只是人物長相，還會同步記錄說話人的音色，并將兩者綁定在一起。

當角色首次登場時，系統會提取其視覺特征和聲音特征寫入記憶庫；后續每生成一個鏡頭，都會從記憶庫中調取這些信息作為參考。

為了兼顧效果和效率，系統也不會無限擴展記憶，而是保留故事開頭的關鍵鏡頭，以及最近生成的鏡頭。

這樣既不會忘記主角最初長什么樣，也始終知道劇情剛剛推進到了哪里：

所以說JoyAI-Echo并不是讓模型擁有更大的記憶力，而是讓模型學會像人一樣記憶——

只保留最重要的信息，并在需要的時候準確調用。

而這套跨模態音視頻記憶機制，也成為JoyAI-Echo實現5分鐘長視頻高一致性生成的核心基礎～

記憶驅動后訓練：速度提升7.5倍

對于長視頻生成來說，一致性只是第一步，生成速度同樣決定了產品能不能真正落地。

為此JoyAI-Echo團隊在模型訓練之外，又專門設計了一套記憶驅動的后訓練流程，在不犧牲生成質量的前提下，把推理效率再往前推一步～

整個流程主要分為三步，首先通過SFT監督微調，讓模型學習高質量音視頻生成能力。

隨后利用人類反饋強化學習進一步優化人物一致性、畫面質量以及音畫同步效果。

最后再通過DMD（Distribution Matching Distillation）技術，將復雜的大模型能力壓縮到更高效的推理模型中。

△AI生成

在整個后訓練體系中，DMD是最關鍵的一環。

而且最最最最需要夸的一點是，僅DMD相關優化就帶來了約7.5倍的推理速度提升！！

我們可以把DMD理解成一次「能力濃縮」——

先讓一個能力更強、但推理速度較慢的教師模型完成完整生成流程，再讓一個更加輕量的學生模型去學習和復現教師模型的生成結果。

這樣一來，原本需要大量擴散步驟才能完成的生成任務，被壓縮成更少的推理步驟，模型卻依然能夠保持接近的生成效果。

如果說跨模態音視頻記憶庫解決的是「不要忘」，那么這套后訓練體系解決的就是「別太慢」。

一個負責守住長視頻的一致性，一個負責提升長視頻的生成效率。

兩者結合，才讓JoyAI-Echo真正具備了邁向長視頻生產工具的基礎能力～

輕量化實時超分：高清輸出不卡頓

一致性有了，速度也上來了，但長視頻生成還有最后一道坎兒——清晰度。

畢竟真到了數字人、品牌營銷、短劇創作這些場景里，誰也不希望最后拿到的是一個糊糊的視頻……

但問題是，當前業內通常采用「視頻生成+離線超分」的兩階段架構。

視頻先生成，再交給獨立超分模型處理。

這種方案雖然也能提高分辨率，但額外引入了一輪推理流程，不僅增加等待時間，還容易造成生成結果和超分結果的偏差。

意思就是，高清是高清了，可等待時間也跟著上去了。

△AI生成

而JoyAI-Echo給出的解決方法是，創新性地把超分能力直接塞進生成鏈路里。

具體來說，系統會先生成720P視頻和對應音頻，再通過輕量化實時超分模塊一步完成高清視頻和音頻細節增強。

整個超分過程只需要一次向前推理，就能直接輸出1K甚至2K分辨率結果～

這樣不僅畫面細節更豐富，音頻質量也會同步優化。

整個過程還不會明顯增加生成延遲，用戶也終于可以不用在「速度」和「清晰度」之間做選擇了。

對于數字人直播、實時創作、內容互動這些對延遲極其敏感的場景來說，高清輸出不卡頓，真的太香了……

Director Agent，專屬于你的AI視頻導演搭子！

大家都懂，現實中的影視制作，從來不是一次完成的。

過去的AI視頻生成，大多停留在一次性出片的階段。

從劇本、分鏡到拍攝、審片，再到返工和重拍，每一個環節都需要反復打磨。

如果其中某個鏡頭出現問題，創作者往往只能重新生成整條視頻，不僅耗時，也很難保證前后內容的一致性。

這也是AI長視頻長期難以真正進入生產環節的原因之一！！！

所以，創作者需要的并不只是一次性結果，還需要像真實拍攝一樣，擁有能夠規劃、生成、返工，甚至局部重拍的工具。

這個問題，JoyAI-Echo技術團隊也想到了，于是給視頻模型配了一位「AI導演」——Director Agent。

我們只需要用自然語言說需求，它會自動幫忙拆分成劇本、角色、場景和鏡頭～

具體來說，Director Agent整個技術鏈路被拆成：策劃、生成、點評修改三個階段。

在策劃階段，Agent更像一位「編劇兼導演」。

它會先理解用戶意圖，將一句自然語言需求擴展成完整的故事框架，補充角色設定、場景信息和敘事邏輯，再進一步拆解為鏡頭級規劃，最終生成符合模型訓練格式的結構化條件。

進入生成階段后，Agent又變成了一位「現場導演」。

它會根據當前鏡頭內容，從已經生成的歷史鏡頭中檢索最相關的信息，并將這些參考內容與當前劇本狀態一起整理成模型需要的輸入條件，讓生成模型能夠準確調用角色、場景和劇情上下文。

△AI生成

最后來到「點評修改」階段，這里反倒更像影視制作里的審片環節～

無論是用戶反饋，還是自動評價模型發現問題，只要角色形象、動作表現、對白內容或音畫同步出現偏差，Agent都能快速定位到具體鏡頭，重新調整對應條件和記憶信息！！！

而且最重要的是，Agent只對受影響的部分進行重生成，而不需要推倒重來，修改后的結果還會同步更新到后續劇情中，確保整個故事始終保持連貫一致～

也正因為如此，JoyAI-Echo不再只是一個負責生成視頻的模型，而更像是一套完整的長視頻創作系統。

殺入全球第一梯隊，長視頻生成開始靠近真實生產

光說不練假把式，從官方評測數據來看，JoyAI-Echo在長視頻生成的多個關鍵指標上，都展現出了領先表現。

在用戶盲測環節，研究團隊將JoyAI-Echo與目前代表性的長視頻模型進行了對比，結果顯示——

在長視頻任務中，用戶有63.6%的情況下更喜歡JoyAI-Echo生成的視頻畫面。

在音頻質量維度這一優勢甚至達到81.7%，提示詞遵循偏好為80.6%，IP一致性偏好為59.4%。

即使放在人像短視頻這一競爭最激烈的賽道中，與主流視頻模型相比，JoyAI-Echo依然獲得了更高的視覺美學用戶偏好（58.8%vs26.5%）。

而JoyAI-Echo的發布，也同樣標志著京東在長視頻生成領域進入「全球第一梯隊」：

過去幾年，AI視頻生成雖然發展迅速，但長視頻始終停留在一個略顯尷尬的位置：

演示效果驚艷，真正投入生產卻困難重重。

角色容易變臉、聲音容易漂移、生成速度過慢、修改成本極高……這些問題決定了大多數長視頻作品更像是技術Demo，而非真正意義上的生產工具。

而JoyAI-Echo試圖解決的，恰恰是這些長期困擾行業的核心瓶頸。

更重要的是，與許多閉源模型不同，JoyAI-Echo選擇了「開源」。

這意味著長視頻生成不再只是少數頭部公司的專屬能力，而開始成為一個能夠被開發者、創作者和研究者共同驗證、調用和迭代的開放工具。

△AI生成

技術框架提供了起點，開放則讓更多可能性慢慢長出來。

當一致性、高分辨率、Agent等能力被開源持續驗證和優化后，行業內長視頻生成的技術迭代速度可能進一步加快。

無論是虛擬IP故事、數字人內容、品牌營銷視頻，還是教育課件、知識講解、游戲動畫和互動劇情，高一致性、可控、可迭代的長視頻生產都能夠成為可能。

如果說過去的大模型解決的是「能不能生成視頻」的問題，那么JoyAI-Echo正在嘗試回答另一個更重要的問題：

AI能不能真正參與長視頻的內容生產創作？

從目前的結果來看，答案已經越來越接近肯定。

JoyAI-Echo帶來的，不僅是一款新的長視頻模型，更是一次AI視頻生產范式的推進。

當穩定記憶、實時交互、可控修改和高效生成開始同時出現時，AI長視頻正在從技術展示走向生產工具。

一個更穩定、更可控的AI長視頻時代，正在被推到臺前。

GitHub地址：
https://github.com/jd-opensource/JoyAI-Echo

項目主頁：
https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/

国产在线拍揄自揄视精品一区|求快播网站你们懂得|好老师的小兔子好软水好多|夫妻性全过程实拍|s8视频网站|精品一区二区传媒公司|男女生的节日对比

新聞資訊網

5分鐘AI長視頻不翻車！國產開源框架殺到全球第一梯隊

市值腰斬，影石創新“背水一戰”

特朗普：若有美軍士兵戰死將考慮終止與同伊朗停火

市值腰斬，影石創新“背水一戰”

特朗普：若有美軍士兵戰死 將考慮終止與同伊朗停火

友情鏈接

特朗普：若有美軍士兵戰死將考慮終止與同伊朗停火