国产在线拍揄自揄视精品一区|求快播网站你们懂得|好老师的小兔子好软水好多|夫妻性全过程实拍|s8视频网站|精品一区二区传媒公司|男女生的节日对比

5分鐘AI長(zhǎng)視頻不翻車!國(guó)產(chǎn)開(kāi)源框架殺到全球第一梯隊(duì)

夢(mèng)瑤 聞樂(lè) 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

AIGC發(fā)展到今天,分鐘翻車生成幾秒鐘的長(zhǎng)視AI視頻真的已經(jīng)不算新鮮事兒了。

但!國(guó)產(chǎn)投票最后沖刺難的開(kāi)源框架地方在于,讓同一個(gè)角色在幾分鐘里始終保持一致(扎心.jpg)——

多鏡頭切換,全球臉可能變了,第梯隊(duì)換場(chǎng)景,分鐘翻車衣服發(fā)型開(kāi)始漂;人物開(kāi)口,長(zhǎng)視音色前后接不上!國(guó)產(chǎn)!開(kāi)源框架

問(wèn)題不在模型「不會(huì)造夢(mèng)」,全球而在于它很難「記住」這個(gè)夢(mèng)……



△AI生成

也正因如此,長(zhǎng)視頻生成遲遲未能進(jìn)入全行業(yè)的分鐘翻車生產(chǎn)流程,更別說(shuō)大規(guī)模商業(yè)化。長(zhǎng)視

在長(zhǎng)視頻生成集體卡殼的國(guó)產(chǎn)當(dāng)下,剛剛,有團(tuán)隊(duì)給出了一套新解法——

開(kāi)源長(zhǎng)音視頻生成框架JoyAI-Echo,并殺入全球長(zhǎng)視頻生成領(lǐng)域全球「第一梯隊(duì)」。

把長(zhǎng)視頻創(chuàng)作里角色一致性、音色穩(wěn)定性、生成速度畫(huà)面質(zhì)量等生成痛點(diǎn),一把梭哈~

哪怕是幾分鐘的視頻,多鏡頭、多場(chǎng)景、多段語(yǔ)音連續(xù)切換,人物形象和聲音也能狠狠穩(wěn)住。



不僅如此,支持對(duì)話式編輯的Agent能力也一起安排上了,以后我們做視頻就像和導(dǎo)演聊天一樣了!

然后嘛,我再仔細(xì)一看,這套高性能開(kāi)源框架,竟然來(lái)自——

京東投票最后沖刺!屬實(shí)藏得太深……(震驚.jpg)

評(píng)測(cè)顯示,JoyAI-Echo在跨鏡頭一致性、語(yǔ)音準(zhǔn)確率(0.8646)等指標(biāo)上全面領(lǐng)先行業(yè),甚至用戶偏好達(dá)59.4%~81.7%。

這下好了,AI視頻也能所見(jiàn)即所得了。

一個(gè)可交互、高一致性、可持續(xù)迭代的長(zhǎng)視頻時(shí)代來(lái)了!

長(zhǎng)視頻不再“跑偏”:高一致性、低延遲、實(shí)時(shí)超分

過(guò)去一年,AI視頻模型的競(jìng)爭(zhēng)重點(diǎn)多集中在幾秒到幾十秒片段:畫(huà)質(zhì)、運(yùn)鏡、風(fēng)格、物理合理性。

各家模型卷得飛起,效果確實(shí)肉眼可見(jiàn)地next level,各類Benchmark評(píng)測(cè)表現(xiàn)也都非常漂亮。

然鵝吧,在AI視頻生成似乎已經(jīng)進(jìn)入成熟期的今天,一個(gè)問(wèn)題依然沒(méi)有被真正解決——長(zhǎng)視頻生成

原因很簡(jiǎn)單:長(zhǎng)視頻,對(duì)整個(gè)行業(yè)來(lái)說(shuō)都《太難了》…….(扎心jpg)



相比短視頻生成,長(zhǎng)視頻不僅是在時(shí)間維度上的簡(jiǎn)單拉長(zhǎng),更意味著跨鏡頭、跨場(chǎng)景、跨動(dòng)作的連續(xù)敘事。

但目前行業(yè)里的長(zhǎng)視頻生成,仍然普遍存在幾個(gè)長(zhǎng)期困境:

說(shuō)話人的音色忽高忽低;生成速度也慢得離譜,往往要等上好幾分鐘才能看到結(jié)果。

這些問(wèn)題背后,暴露的則是當(dāng)前模型在長(zhǎng)時(shí)序生成上的天然挑戰(zhàn):

模型錯(cuò)誤累積、長(zhǎng)程時(shí)序一致性弱、推理延遲高。

最終帶來(lái)的結(jié)果就是,視頻里的人物會(huì)變臉,聲音會(huì)飄,生成還得等很久。

這些問(wèn)題也直接限制了AI視頻在虛擬敘事、數(shù)字人助手、實(shí)時(shí)內(nèi)容創(chuàng)作等場(chǎng)景中的進(jìn)一步落地和「規(guī)模化應(yīng)用」。



△AI生成

而JoyAI-Echo給出的解法是,通過(guò)跨模態(tài)音視頻記憶庫(kù)、記憶驅(qū)動(dòng)后訓(xùn)練、輕量化實(shí)時(shí)超分讓長(zhǎng)視頻生成更穩(wěn)。

哪怕是幾分鐘的視頻,我們也能絲滑拿下!!拒絕反復(fù)抽卡!!

跨模態(tài)音視頻記憶庫(kù):角色再也不“變臉”

長(zhǎng)視頻生成最讓人頭疼、行業(yè)最難啃的一塊骨頭,就是角色和聲音的「前后不一致」。

在JoyAI-Echo團(tuán)隊(duì)看來(lái),問(wèn)題的根源在于現(xiàn)有模型缺乏真正意義上的長(zhǎng)期記憶能力

行業(yè)里傳統(tǒng)方案、通常依賴上下文窗口保存歷史信息,但隨著視頻長(zhǎng)度增加,早期內(nèi)容會(huì)逐漸被后續(xù)信息稀釋。

模型雖然能夠記住最近幾個(gè)鏡頭,卻很難穩(wěn)定保存數(shù)分鐘之前的人物特征!!

JoyAI-Echo的做法是——

直接在框架里塞進(jìn)了一套「跨模態(tài)音視頻記憶庫(kù)」

與其讓模型記住所有歷史內(nèi)容,不如把最關(guān)鍵的身份信息保存下來(lái),并在后續(xù)生成過(guò)程中持續(xù)調(diào)用。

這樣一來(lái),即便視頻長(zhǎng)度來(lái)到5分鐘,角色的身份、外觀和聲音依然能夠保持高度一致!!!

這套記憶庫(kù)最大的特點(diǎn)在于,它記錄的不只是人物長(zhǎng)相,還會(huì)同步記錄說(shuō)話人的音色,并將兩者綁定在一起。

當(dāng)角色首次登場(chǎng)時(shí),系統(tǒng)會(huì)提取其視覺(jué)特征和聲音特征寫入記憶庫(kù);后續(xù)每生成一個(gè)鏡頭,都會(huì)從記憶庫(kù)中調(diào)取這些信息作為參考。

為了兼顧效果和效率,系統(tǒng)也不會(huì)無(wú)限擴(kuò)展記憶,而是保留故事開(kāi)頭的關(guān)鍵鏡頭,以及最近生成的鏡頭。

這樣既不會(huì)忘記主角最初長(zhǎng)什么樣,也始終知道劇情剛剛推進(jìn)到了哪里:



所以說(shuō)JoyAI-Echo并不是讓模型擁有更大的記憶力,而是讓模型學(xué)會(huì)像人一樣記憶——

只保留最重要的信息,并在需要的時(shí)候準(zhǔn)確調(diào)用。

而這套跨模態(tài)音視頻記憶機(jī)制,也成為JoyAI-Echo實(shí)現(xiàn)5分鐘長(zhǎng)視頻高一致性生成的核心基礎(chǔ)~

記憶驅(qū)動(dòng)后訓(xùn)練:速度提升7.5倍

對(duì)于長(zhǎng)視頻生成來(lái)說(shuō),一致性只是第一步,生成速度同樣決定了產(chǎn)品能不能真正落地。

為此JoyAI-Echo團(tuán)隊(duì)在模型訓(xùn)練之外,又專門設(shè)計(jì)了一套記憶驅(qū)動(dòng)的后訓(xùn)練流程,在不犧牲生成質(zhì)量的前提下,把推理效率再往前推一步~

整個(gè)流程主要分為三步,首先通過(guò)SFT監(jiān)督微調(diào),讓模型學(xué)習(xí)高質(zhì)量音視頻生成能力。

隨后利用人類反饋強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化人物一致性、畫(huà)面質(zhì)量以及音畫(huà)同步效果。

最后再通過(guò)DMD(Distribution Matching Distillation)技術(shù),將復(fù)雜的大模型能力壓縮到更高效的推理模型中。



△AI生成

在整個(gè)后訓(xùn)練體系中,DMD是最關(guān)鍵的一環(huán)。

而且最最最最需要夸的一點(diǎn)是,僅DMD相關(guān)優(yōu)化就帶來(lái)了約7.5倍的推理速度提升!!

我們可以把DMD理解成一次「能力濃縮」——

先讓一個(gè)能力更強(qiáng)、但推理速度較慢的教師模型完成完整生成流程,再讓一個(gè)更加輕量的學(xué)生模型去學(xué)習(xí)和復(fù)現(xiàn)教師模型的生成結(jié)果。



這樣一來(lái),原本需要大量擴(kuò)散步驟才能完成的生成任務(wù),被壓縮成更少的推理步驟,模型卻依然能夠保持接近的生成效果。

如果說(shuō)跨模態(tài)音視頻記憶庫(kù)解決的是「不要忘」,那么這套后訓(xùn)練體系解決的就是「別太慢」。

一個(gè)負(fù)責(zé)守住長(zhǎng)視頻的一致性,一個(gè)負(fù)責(zé)提升長(zhǎng)視頻的生成效率。

兩者結(jié)合,才讓JoyAI-Echo真正具備了邁向長(zhǎng)視頻生產(chǎn)工具的基礎(chǔ)能力~

輕量化實(shí)時(shí)超分:高清輸出不卡頓

一致性有了,速度也上來(lái)了,但長(zhǎng)視頻生成還有最后一道坎兒——清晰度。

畢竟真到了數(shù)字人、品牌營(yíng)銷、短劇創(chuàng)作這些場(chǎng)景里,誰(shuí)也不希望最后拿到的是一個(gè)糊糊的視頻……

但問(wèn)題是,當(dāng)前業(yè)內(nèi)通常采用「視頻生成+離線超分」的兩階段架構(gòu)。

視頻先生成,再交給獨(dú)立超分模型處理。

這種方案雖然也能提高分辨率,但額外引入了一輪推理流程,不僅增加等待時(shí)間,還容易造成生成結(jié)果和超分結(jié)果的偏差。

意思就是,高清是高清了,可等待時(shí)間也跟著上去了。



△AI生成

而JoyAI-Echo給出的解決方法是,創(chuàng)新性地把超分能力直接塞進(jìn)生成鏈路里

具體來(lái)說(shuō),系統(tǒng)會(huì)先生成720P視頻和對(duì)應(yīng)音頻,再通過(guò)輕量化實(shí)時(shí)超分模塊一步完成高清視頻和音頻細(xì)節(jié)增強(qiáng)。

整個(gè)超分過(guò)程只需要一次向前推理,就能直接輸出1K甚至2K分辨率結(jié)果~

這樣不僅畫(huà)面細(xì)節(jié)更豐富,音頻質(zhì)量也會(huì)同步優(yōu)化。

整個(gè)過(guò)程還不會(huì)明顯增加生成延遲,用戶也終于可以不用在「速度」和「清晰度」之間做選擇了。

對(duì)于數(shù)字人直播、實(shí)時(shí)創(chuàng)作、內(nèi)容互動(dòng)這些對(duì)延遲極其敏感的場(chǎng)景來(lái)說(shuō),高清輸出不卡頓,真的太香了……

Director Agent,專屬于你的AI視頻導(dǎo)演搭子!

大家都懂,現(xiàn)實(shí)中的影視制作,從來(lái)不是一次完成的。

過(guò)去的AI視頻生成,大多停留在一次性出片的階段。

從劇本、分鏡到拍攝、審片,再到返工和重拍,每一個(gè)環(huán)節(jié)都需要反復(fù)打磨。

如果其中某個(gè)鏡頭出現(xiàn)問(wèn)題,創(chuàng)作者往往只能重新生成整條視頻,不僅耗時(shí),也很難保證前后內(nèi)容的一致性。

這也是AI長(zhǎng)視頻長(zhǎng)期難以真正進(jìn)入生產(chǎn)環(huán)節(jié)的原因之一!!!

所以,創(chuàng)作者需要的并不只是一次性結(jié)果,還需要像真實(shí)拍攝一樣,擁有能夠規(guī)劃、生成、返工,甚至局部重拍的工具。

這個(gè)問(wèn)題,JoyAI-Echo技術(shù)團(tuán)隊(duì)也想到了,于是給視頻模型配了一位「AI導(dǎo)演」——Director Agent

我們只需要用自然語(yǔ)言說(shuō)需求,它會(huì)自動(dòng)幫忙拆分成劇本、角色、場(chǎng)景和鏡頭~



具體來(lái)說(shuō),Director Agent整個(gè)技術(shù)鏈路被拆成:策劃、生成、點(diǎn)評(píng)修改三個(gè)階段。

在策劃階段,Agent更像一位「編劇兼導(dǎo)演」。

它會(huì)先理解用戶意圖,將一句自然語(yǔ)言需求擴(kuò)展成完整的故事框架,補(bǔ)充角色設(shè)定、場(chǎng)景信息和敘事邏輯,再進(jìn)一步拆解為鏡頭級(jí)規(guī)劃,最終生成符合模型訓(xùn)練格式的結(jié)構(gòu)化條件。

進(jìn)入生成階段后,Agent又變成了一位「現(xiàn)場(chǎng)導(dǎo)演」。

它會(huì)根據(jù)當(dāng)前鏡頭內(nèi)容,從已經(jīng)生成的歷史鏡頭中檢索最相關(guān)的信息,并將這些參考內(nèi)容與當(dāng)前劇本狀態(tài)一起整理成模型需要的輸入條件,讓生成模型能夠準(zhǔn)確調(diào)用角色、場(chǎng)景和劇情上下文。



△AI生成

最后來(lái)到「點(diǎn)評(píng)修改」階段,這里反倒更像影視制作里的審片環(huán)節(jié)~

無(wú)論是用戶反饋,還是自動(dòng)評(píng)價(jià)模型發(fā)現(xiàn)問(wèn)題,只要角色形象、動(dòng)作表現(xiàn)、對(duì)白內(nèi)容或音畫(huà)同步出現(xiàn)偏差,Agent都能快速定位到具體鏡頭,重新調(diào)整對(duì)應(yīng)條件和記憶信息!!!

而且最重要的是,Agent只對(duì)受影響的部分進(jìn)行重生成,而不需要推倒重來(lái),修改后的結(jié)果還會(huì)同步更新到后續(xù)劇情中,確保整個(gè)故事始終保持連貫一致~

也正因?yàn)槿绱耍琂oyAI-Echo不再只是一個(gè)負(fù)責(zé)生成視頻的模型,而更像是一套完整的長(zhǎng)視頻創(chuàng)作系統(tǒng)。

殺入全球第一梯隊(duì),長(zhǎng)視頻生成開(kāi)始靠近真實(shí)生產(chǎn)

光說(shuō)不練假把式,從官方評(píng)測(cè)數(shù)據(jù)來(lái)看,JoyAI-Echo在長(zhǎng)視頻生成的多個(gè)關(guān)鍵指標(biāo)上,都展現(xiàn)出了領(lǐng)先表現(xiàn)。

在用戶盲測(cè)環(huán)節(jié),研究團(tuán)隊(duì)將JoyAI-Echo與目前代表性的長(zhǎng)視頻模型進(jìn)行了對(duì)比,結(jié)果顯示——

長(zhǎng)視頻任務(wù)中,用戶有63.6%的情況下更喜歡JoyAI-Echo生成的視頻畫(huà)面。

音頻質(zhì)量維度這一優(yōu)勢(shì)甚至達(dá)到81.7%,提示詞遵循偏好為80.6%,IP一致性偏好為59.4%。

即使放在人像短視頻這一競(jìng)爭(zhēng)最激烈的賽道中,與主流視頻模型相比,JoyAI-Echo依然獲得了更高的視覺(jué)美學(xué)用戶偏好(58.8%vs26.5%)。

而JoyAI-Echo的發(fā)布,也同樣標(biāo)志著京東在長(zhǎng)視頻生成領(lǐng)域進(jìn)入「全球第一梯隊(duì)」:



過(guò)去幾年,AI視頻生成雖然發(fā)展迅速,但長(zhǎng)視頻始終停留在一個(gè)略顯尷尬的位置:

演示效果驚艷,真正投入生產(chǎn)卻困難重重。

角色容易變臉、聲音容易漂移、生成速度過(guò)慢、修改成本極高……這些問(wèn)題決定了大多數(shù)長(zhǎng)視頻作品更像是技術(shù)Demo,而非真正意義上的生產(chǎn)工具。

而JoyAI-Echo試圖解決的,恰恰是這些長(zhǎng)期困擾行業(yè)的核心瓶頸。

更重要的是,與許多閉源模型不同,JoyAI-Echo選擇了「開(kāi)源」

這意味著長(zhǎng)視頻生成不再只是少數(shù)頭部公司的專屬能力,而開(kāi)始成為一個(gè)能夠被開(kāi)發(fā)者、創(chuàng)作者和研究者共同驗(yàn)證、調(diào)用和迭代的開(kāi)放工具。



△AI生成

技術(shù)框架提供了起點(diǎn),開(kāi)放則讓更多可能性慢慢長(zhǎng)出來(lái)。

當(dāng)一致性、高分辨率、Agent等能力被開(kāi)源持續(xù)驗(yàn)證和優(yōu)化后,行業(yè)內(nèi)長(zhǎng)視頻生成的技術(shù)迭代速度可能進(jìn)一步加快。

無(wú)論是虛擬IP故事、數(shù)字人內(nèi)容、品牌營(yíng)銷視頻,還是教育課件、知識(shí)講解、游戲動(dòng)畫(huà)和互動(dòng)劇情,高一致性、可控、可迭代的長(zhǎng)視頻生產(chǎn)都能夠成為可能。

如果說(shuō)過(guò)去的大模型解決的是「能不能生成視頻」的問(wèn)題,那么JoyAI-Echo正在嘗試回答另一個(gè)更重要的問(wèn)題:

AI能不能真正參與長(zhǎng)視頻的內(nèi)容生產(chǎn)創(chuàng)作?

從目前的結(jié)果來(lái)看,答案已經(jīng)越來(lái)越接近肯定。

JoyAI-Echo帶來(lái)的,不僅是一款新的長(zhǎng)視頻模型,更是一次AI視頻生產(chǎn)范式的推進(jìn)。

當(dāng)穩(wěn)定記憶、實(shí)時(shí)交互、可控修改和高效生成開(kāi)始同時(shí)出現(xiàn)時(shí),AI長(zhǎng)視頻正在從技術(shù)展示走向生產(chǎn)工具。

一個(gè)更穩(wěn)定、更可控的AI長(zhǎng)視頻時(shí)代,正在被推到臺(tái)前。

GitHub地址:
https://github.com/jd-opensource/JoyAI-Echo

項(xiàng)目主頁(yè):
https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/

鄂ICP備2025167458號(hào)-1