首頁(yè) 焦點(diǎn) 正文

5分鐘AI長(zhǎng)視頻不翻車！國(guó)產(chǎn)開(kāi)源框架殺到全球第一梯隊(duì)

新聞資訊網(wǎng) 焦點(diǎn) 2026-06-10 06:06:53

夢(mèng)瑤聞樂(lè) 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

AIGC發(fā)展到今天，分鐘翻車生成幾秒鐘的長(zhǎng)視AI視頻真的已經(jīng)不算新鮮事兒了。

但！國(guó)產(chǎn)投票最后沖刺難的開(kāi)源框架地方在于，讓同一個(gè)角色在幾分鐘里始終保持一致（扎心.jpg）——

多鏡頭切換，全球臉可能變了，第梯隊(duì)換場(chǎng)景，分鐘翻車衣服發(fā)型開(kāi)始漂；人物開(kāi)口，長(zhǎng)視音色前后接不上！國(guó)產(chǎn)！開(kāi)源框架

問(wèn)題不在模型「不會(huì)造夢(mèng)」，全球而在于它很難「記住」這個(gè)夢(mèng)……

△AI生成

也正因如此，長(zhǎng)視頻生成遲遲未能進(jìn)入全行業(yè)的分鐘翻車生產(chǎn)流程，更別說(shuō)大規(guī)模商業(yè)化。長(zhǎng)視

在長(zhǎng)視頻生成集體卡殼的國(guó)產(chǎn)當(dāng)下，剛剛，有團(tuán)隊(duì)給出了一套新解法——

開(kāi)源長(zhǎng)音視頻生成框架JoyAI-Echo，并殺入全球長(zhǎng)視頻生成領(lǐng)域全球「第一梯隊(duì)」。

把長(zhǎng)視頻創(chuàng)作里角色一致性、音色穩(wěn)定性、生成速度和畫(huà)面質(zhì)量等生成痛點(diǎn)，一把梭哈～

哪怕是幾分鐘的視頻，多鏡頭、多場(chǎng)景、多段語(yǔ)音連續(xù)切換，人物形象和聲音也能狠狠穩(wěn)住。

不僅如此，支持對(duì)話式編輯的Agent能力也一起安排上了，以后我們做視頻就像和導(dǎo)演聊天一樣了！

然后嘛，我再仔細(xì)一看，這套高性能開(kāi)源框架，竟然來(lái)自——

京東？投票最后沖刺！屬實(shí)藏得太深……（震驚.jpg)

評(píng)測(cè)顯示，JoyAI-Echo在跨鏡頭一致性、語(yǔ)音準(zhǔn)確率（0.8646）等指標(biāo)上全面領(lǐng)先行業(yè)，甚至用戶偏好達(dá)59.4%~81.7%。

這下好了，AI視頻也能所見(jiàn)即所得了。

一個(gè)可交互、高一致性、可持續(xù)迭代的長(zhǎng)視頻時(shí)代來(lái)了！

長(zhǎng)視頻不再“跑偏”：高一致性、低延遲、實(shí)時(shí)超分

過(guò)去一年，AI視頻模型的競(jìng)爭(zhēng)重點(diǎn)多集中在幾秒到幾十秒片段：畫(huà)質(zhì)、運(yùn)鏡、風(fēng)格、物理合理性。

各家模型卷得飛起，效果確實(shí)肉眼可見(jiàn)地next level，各類Benchmark評(píng)測(cè)表現(xiàn)也都非常漂亮。

然鵝吧，在AI視頻生成似乎已經(jīng)進(jìn)入成熟期的今天，一個(gè)問(wèn)題依然沒(méi)有被真正解決——長(zhǎng)視頻生成。

原因很簡(jiǎn)單：長(zhǎng)視頻，對(duì)整個(gè)行業(yè)來(lái)說(shuō)都《太難了》…….（扎心jpg)

相比短視頻生成，長(zhǎng)視頻不僅是在時(shí)間維度上的簡(jiǎn)單拉長(zhǎng)，更意味著跨鏡頭、跨場(chǎng)景、跨動(dòng)作的連續(xù)敘事。

但目前行業(yè)里的長(zhǎng)視頻生成，仍然普遍存在幾個(gè)長(zhǎng)期困境：

說(shuō)話人的音色忽高忽低；生成速度也慢得離譜，往往要等上好幾分鐘才能看到結(jié)果。

這些問(wèn)題背后，暴露的則是當(dāng)前模型在長(zhǎng)時(shí)序生成上的天然挑戰(zhàn)：

模型錯(cuò)誤累積、長(zhǎng)程時(shí)序一致性弱、推理延遲高。

最終帶來(lái)的結(jié)果就是，視頻里的人物會(huì)變臉，聲音會(huì)飄，生成還得等很久。

這些問(wèn)題也直接限制了AI視頻在虛擬敘事、數(shù)字人助手、實(shí)時(shí)內(nèi)容創(chuàng)作等場(chǎng)景中的進(jìn)一步落地和「規(guī)模化應(yīng)用」。

△AI生成

而JoyAI-Echo給出的解法是，通過(guò)跨模態(tài)音視頻記憶庫(kù)、記憶驅(qū)動(dòng)后訓(xùn)練、輕量化實(shí)時(shí)超分讓長(zhǎng)視頻生成更穩(wěn)。

哪怕是幾分鐘的視頻，我們也能絲滑拿下！！拒絕反復(fù)抽卡！！

跨模態(tài)音視頻記憶庫(kù)：角色再也不“變臉”

長(zhǎng)視頻生成最讓人頭疼、行業(yè)最難啃的一塊骨頭，就是角色和聲音的「前后不一致」。

在JoyAI-Echo團(tuán)隊(duì)看來(lái)，問(wèn)題的根源在于現(xiàn)有模型缺乏真正意義上的長(zhǎng)期記憶能力。

行業(yè)里傳統(tǒng)方案、通常依賴上下文窗口保存歷史信息，但隨著視頻長(zhǎng)度增加，早期內(nèi)容會(huì)逐漸被后續(xù)信息稀釋。

模型雖然能夠記住最近幾個(gè)鏡頭，卻很難穩(wěn)定保存數(shù)分鐘之前的人物特征！！

而JoyAI-Echo的做法是——

直接在框架里塞進(jìn)了一套「跨模態(tài)音視頻記憶庫(kù)」。

與其讓模型記住所有歷史內(nèi)容，不如把最關(guān)鍵的身份信息保存下來(lái)，并在后續(xù)生成過(guò)程中持續(xù)調(diào)用。

這樣一來(lái)，即便視頻長(zhǎng)度來(lái)到5分鐘，角色的身份、外觀和聲音依然能夠保持高度一致！！！

這套記憶庫(kù)最大的特點(diǎn)在于，它記錄的不只是人物長(zhǎng)相，還會(huì)同步記錄說(shuō)話人的音色，并將兩者綁定在一起。

當(dāng)角色首次登場(chǎng)時(shí)，系統(tǒng)會(huì)提取其視覺(jué)特征和聲音特征寫入記憶庫(kù)；后續(xù)每生成一個(gè)鏡頭，都會(huì)從記憶庫(kù)中調(diào)取這些信息作為參考。

為了兼顧效果和效率，系統(tǒng)也不會(huì)無(wú)限擴(kuò)展記憶，而是保留故事開(kāi)頭的關(guān)鍵鏡頭，以及最近生成的鏡頭。

這樣既不會(huì)忘記主角最初長(zhǎng)什么樣，也始終知道劇情剛剛推進(jìn)到了哪里：

所以說(shuō)JoyAI-Echo并不是讓模型擁有更大的記憶力，而是讓模型學(xué)會(huì)像人一樣記憶——

只保留最重要的信息，并在需要的時(shí)候準(zhǔn)確調(diào)用。

而這套跨模態(tài)音視頻記憶機(jī)制，也成為JoyAI-Echo實(shí)現(xiàn)5分鐘長(zhǎng)視頻高一致性生成的核心基礎(chǔ)～

記憶驅(qū)動(dòng)后訓(xùn)練：速度提升7.5倍

對(duì)于長(zhǎng)視頻生成來(lái)說(shuō)，一致性只是第一步，生成速度同樣決定了產(chǎn)品能不能真正落地。

為此JoyAI-Echo團(tuán)隊(duì)在模型訓(xùn)練之外，又專門設(shè)計(jì)了一套記憶驅(qū)動(dòng)的后訓(xùn)練流程，在不犧牲生成質(zhì)量的前提下，把推理效率再往前推一步～

整個(gè)流程主要分為三步，首先通過(guò)SFT監(jiān)督微調(diào)，讓模型學(xué)習(xí)高質(zhì)量音視頻生成能力。

隨后利用人類反饋強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化人物一致性、畫(huà)面質(zhì)量以及音畫(huà)同步效果。

最后再通過(guò)DMD（Distribution Matching Distillation）技術(shù)，將復(fù)雜的大模型能力壓縮到更高效的推理模型中。

△AI生成

在整個(gè)后訓(xùn)練體系中，DMD是最關(guān)鍵的一環(huán)。

而且最最最最需要夸的一點(diǎn)是，僅DMD相關(guān)優(yōu)化就帶來(lái)了約7.5倍的推理速度提升！！

我們可以把DMD理解成一次「能力濃縮」——

先讓一個(gè)能力更強(qiáng)、但推理速度較慢的教師模型完成完整生成流程，再讓一個(gè)更加輕量的學(xué)生模型去學(xué)習(xí)和復(fù)現(xiàn)教師模型的生成結(jié)果。

這樣一來(lái)，原本需要大量擴(kuò)散步驟才能完成的生成任務(wù)，被壓縮成更少的推理步驟，模型卻依然能夠保持接近的生成效果。

如果說(shuō)跨模態(tài)音視頻記憶庫(kù)解決的是「不要忘」，那么這套后訓(xùn)練體系解決的就是「別太慢」。

一個(gè)負(fù)責(zé)守住長(zhǎng)視頻的一致性，一個(gè)負(fù)責(zé)提升長(zhǎng)視頻的生成效率。

兩者結(jié)合，才讓JoyAI-Echo真正具備了邁向長(zhǎng)視頻生產(chǎn)工具的基礎(chǔ)能力～

輕量化實(shí)時(shí)超分：高清輸出不卡頓

一致性有了，速度也上來(lái)了，但長(zhǎng)視頻生成還有最后一道坎兒——清晰度。

畢竟真到了數(shù)字人、品牌營(yíng)銷、短劇創(chuàng)作這些場(chǎng)景里，誰(shuí)也不希望最后拿到的是一個(gè)糊糊的視頻……

但問(wèn)題是，當(dāng)前業(yè)內(nèi)通常采用「視頻生成+離線超分」的兩階段架構(gòu)。

視頻先生成，再交給獨(dú)立超分模型處理。

這種方案雖然也能提高分辨率，但額外引入了一輪推理流程，不僅增加等待時(shí)間，還容易造成生成結(jié)果和超分結(jié)果的偏差。

意思就是，高清是高清了，可等待時(shí)間也跟著上去了。

△AI生成

而JoyAI-Echo給出的解決方法是，創(chuàng)新性地把超分能力直接塞進(jìn)生成鏈路里。

具體來(lái)說(shuō)，系統(tǒng)會(huì)先生成720P視頻和對(duì)應(yīng)音頻，再通過(guò)輕量化實(shí)時(shí)超分模塊一步完成高清視頻和音頻細(xì)節(jié)增強(qiáng)。

整個(gè)超分過(guò)程只需要一次向前推理，就能直接輸出1K甚至2K分辨率結(jié)果～

這樣不僅畫(huà)面細(xì)節(jié)更豐富，音頻質(zhì)量也會(huì)同步優(yōu)化。

整個(gè)過(guò)程還不會(huì)明顯增加生成延遲，用戶也終于可以不用在「速度」和「清晰度」之間做選擇了。

對(duì)于數(shù)字人直播、實(shí)時(shí)創(chuàng)作、內(nèi)容互動(dòng)這些對(duì)延遲極其敏感的場(chǎng)景來(lái)說(shuō)，高清輸出不卡頓，真的太香了……

Director Agent，專屬于你的AI視頻導(dǎo)演搭子！

大家都懂，現(xiàn)實(shí)中的影視制作，從來(lái)不是一次完成的。

過(guò)去的AI視頻生成，大多停留在一次性出片的階段。

從劇本、分鏡到拍攝、審片，再到返工和重拍，每一個(gè)環(huán)節(jié)都需要反復(fù)打磨。

如果其中某個(gè)鏡頭出現(xiàn)問(wèn)題，創(chuàng)作者往往只能重新生成整條視頻，不僅耗時(shí)，也很難保證前后內(nèi)容的一致性。

這也是AI長(zhǎng)視頻長(zhǎng)期難以真正進(jìn)入生產(chǎn)環(huán)節(jié)的原因之一！！！

所以，創(chuàng)作者需要的并不只是一次性結(jié)果，還需要像真實(shí)拍攝一樣，擁有能夠規(guī)劃、生成、返工，甚至局部重拍的工具。

這個(gè)問(wèn)題，JoyAI-Echo技術(shù)團(tuán)隊(duì)也想到了，于是給視頻模型配了一位「AI導(dǎo)演」——Director Agent。

我們只需要用自然語(yǔ)言說(shuō)需求，它會(huì)自動(dòng)幫忙拆分成劇本、角色、場(chǎng)景和鏡頭～

具體來(lái)說(shuō)，Director Agent整個(gè)技術(shù)鏈路被拆成：策劃、生成、點(diǎn)評(píng)修改三個(gè)階段。

在策劃階段，Agent更像一位「編劇兼導(dǎo)演」。

它會(huì)先理解用戶意圖，將一句自然語(yǔ)言需求擴(kuò)展成完整的故事框架，補(bǔ)充角色設(shè)定、場(chǎng)景信息和敘事邏輯，再進(jìn)一步拆解為鏡頭級(jí)規(guī)劃，最終生成符合模型訓(xùn)練格式的結(jié)構(gòu)化條件。

進(jìn)入生成階段后，Agent又變成了一位「現(xiàn)場(chǎng)導(dǎo)演」。

它會(huì)根據(jù)當(dāng)前鏡頭內(nèi)容，從已經(jīng)生成的歷史鏡頭中檢索最相關(guān)的信息，并將這些參考內(nèi)容與當(dāng)前劇本狀態(tài)一起整理成模型需要的輸入條件，讓生成模型能夠準(zhǔn)確調(diào)用角色、場(chǎng)景和劇情上下文。

△AI生成

最后來(lái)到「點(diǎn)評(píng)修改」階段，這里反倒更像影視制作里的審片環(huán)節(jié)～

無(wú)論是用戶反饋，還是自動(dòng)評(píng)價(jià)模型發(fā)現(xiàn)問(wèn)題，只要角色形象、動(dòng)作表現(xiàn)、對(duì)白內(nèi)容或音畫(huà)同步出現(xiàn)偏差，Agent都能快速定位到具體鏡頭，重新調(diào)整對(duì)應(yīng)條件和記憶信息！！！

而且最重要的是，Agent只對(duì)受影響的部分進(jìn)行重生成，而不需要推倒重來(lái)，修改后的結(jié)果還會(huì)同步更新到后續(xù)劇情中，確保整個(gè)故事始終保持連貫一致～

也正因?yàn)槿绱耍琂oyAI-Echo不再只是一個(gè)負(fù)責(zé)生成視頻的模型，而更像是一套完整的長(zhǎng)視頻創(chuàng)作系統(tǒng)。

殺入全球第一梯隊(duì)，長(zhǎng)視頻生成開(kāi)始靠近真實(shí)生產(chǎn)

光說(shuō)不練假把式，從官方評(píng)測(cè)數(shù)據(jù)來(lái)看，JoyAI-Echo在長(zhǎng)視頻生成的多個(gè)關(guān)鍵指標(biāo)上，都展現(xiàn)出了領(lǐng)先表現(xiàn)。

在用戶盲測(cè)環(huán)節(jié)，研究團(tuán)隊(duì)將JoyAI-Echo與目前代表性的長(zhǎng)視頻模型進(jìn)行了對(duì)比，結(jié)果顯示——

在長(zhǎng)視頻任務(wù)中，用戶有63.6%的情況下更喜歡JoyAI-Echo生成的視頻畫(huà)面。

在音頻質(zhì)量維度這一優(yōu)勢(shì)甚至達(dá)到81.7%，提示詞遵循偏好為80.6%，IP一致性偏好為59.4%。

即使放在人像短視頻這一競(jìng)爭(zhēng)最激烈的賽道中，與主流視頻模型相比，JoyAI-Echo依然獲得了更高的視覺(jué)美學(xué)用戶偏好（58.8%vs26.5%）。

而JoyAI-Echo的發(fā)布，也同樣標(biāo)志著京東在長(zhǎng)視頻生成領(lǐng)域進(jìn)入「全球第一梯隊(duì)」：

過(guò)去幾年，AI視頻生成雖然發(fā)展迅速，但長(zhǎng)視頻始終停留在一個(gè)略顯尷尬的位置：

演示效果驚艷，真正投入生產(chǎn)卻困難重重。

角色容易變臉、聲音容易漂移、生成速度過(guò)慢、修改成本極高……這些問(wèn)題決定了大多數(shù)長(zhǎng)視頻作品更像是技術(shù)Demo，而非真正意義上的生產(chǎn)工具。

而JoyAI-Echo試圖解決的，恰恰是這些長(zhǎng)期困擾行業(yè)的核心瓶頸。

更重要的是，與許多閉源模型不同，JoyAI-Echo選擇了「開(kāi)源」。

這意味著長(zhǎng)視頻生成不再只是少數(shù)頭部公司的專屬能力，而開(kāi)始成為一個(gè)能夠被開(kāi)發(fā)者、創(chuàng)作者和研究者共同驗(yàn)證、調(diào)用和迭代的開(kāi)放工具。

△AI生成

技術(shù)框架提供了起點(diǎn)，開(kāi)放則讓更多可能性慢慢長(zhǎng)出來(lái)。

當(dāng)一致性、高分辨率、Agent等能力被開(kāi)源持續(xù)驗(yàn)證和優(yōu)化后，行業(yè)內(nèi)長(zhǎng)視頻生成的技術(shù)迭代速度可能進(jìn)一步加快。

無(wú)論是虛擬IP故事、數(shù)字人內(nèi)容、品牌營(yíng)銷視頻，還是教育課件、知識(shí)講解、游戲動(dòng)畫(huà)和互動(dòng)劇情，高一致性、可控、可迭代的長(zhǎng)視頻生產(chǎn)都能夠成為可能。

如果說(shuō)過(guò)去的大模型解決的是「能不能生成視頻」的問(wèn)題，那么JoyAI-Echo正在嘗試回答另一個(gè)更重要的問(wèn)題：

AI能不能真正參與長(zhǎng)視頻的內(nèi)容生產(chǎn)創(chuàng)作？

從目前的結(jié)果來(lái)看，答案已經(jīng)越來(lái)越接近肯定。

JoyAI-Echo帶來(lái)的，不僅是一款新的長(zhǎng)視頻模型，更是一次AI視頻生產(chǎn)范式的推進(jìn)。

當(dāng)穩(wěn)定記憶、實(shí)時(shí)交互、可控修改和高效生成開(kāi)始同時(shí)出現(xiàn)時(shí)，AI長(zhǎng)視頻正在從技術(shù)展示走向生產(chǎn)工具。

一個(gè)更穩(wěn)定、更可控的AI長(zhǎng)視頻時(shí)代，正在被推到臺(tái)前。

GitHub地址：
https://github.com/jd-opensource/JoyAI-Echo

項(xiàng)目主頁(yè)：
https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/

国产在线拍揄自揄视精品一区|求快播网站你们懂得|好老师的小兔子好软水好多|夫妻性全过程实拍|s8视频网站|精品一区二区传媒公司|男女生的节日对比

新聞資訊網(wǎng)

5分鐘AI長(zhǎng)視頻不翻車！國(guó)產(chǎn)開(kāi)源框架殺到全球第一梯隊(duì)

比亞迪率先承諾為城市領(lǐng)航安全兜底開(kāi)創(chuàng)全民城市領(lǐng)航時(shí)代

創(chuàng)比利時(shí)史上最大純電訂單！寶馬一次性賣出1000臺(tái)電動(dòng)車

比亞迪率先承諾為城市領(lǐng)航安全兜底 開(kāi)創(chuàng)全民城市領(lǐng)航時(shí)代

創(chuàng)比利時(shí)史上最大純電訂單！寶馬一次性賣出1000臺(tái)電動(dòng)車

友情鏈接

比亞迪率先承諾為城市領(lǐng)航安全兜底開(kāi)創(chuàng)全民城市領(lǐng)航時(shí)代