用華為算力訓練,訊飛詳述困難和優勢

文/觀察者網 呂棟

“由于昇騰910B芯片的用華優勢硬件設計限制,包括顯存容量顯著低于H200芯片(64G Vs 141G),為算顯存帶寬差2倍(1.6TB/s Vs 4.8TB/s )等,力訓練訊投票趕超對手(H200是飛詳英偉達的中等配置芯片),這些限制導致在新模型訓練過程中遇到很大的述困困難?!?月29日在業績會上,難和科大訊飛管理層罕見陳述了在昇騰芯片上訓練大模型時遇到的用華優勢挑戰。

在智能體應用爆發的為算當下,大模型對超長上下文建模、力訓練訊工具調用、飛詳項目級代碼等復雜能力的述困要求急劇攀升,而國產算力的難和顯存和帶寬限制,使得訓練這類模型變得棘手。用華優勢當國際主流算法出來后,為算在英偉達GPU上直接就可以做,力訓練訊但在國產卡上需要額外解決算子庫效率優化等一系列問題,需要額外3-6個月的適配周期。

堅持在華為昇騰上訓練,科大訊飛的做法相對激進,但實際的選擇也并沒有太多。中美科技的博弈持續深化,多家中國公司被實體清單羈絆,最先進的GPU買不到,海外生態不可靠的現實更不需反復論證。

攜手國產算力訓練大模型,是投票趕超對手科大訊飛不小的挑戰,也是AI時代唯一的突圍路徑。“近期有一些媒體報道DeepSeek V4是昇騰算力上訓練的,但實際只是基于昇騰算力對V4模型做了推理適配,DS V4的訓練仍然是基于英偉達卡進行的。”科大訊飛管理層在業績會上表示,目前國內仍然只有訊飛一家在全國產算力上完成全棧模型的訓練。

用國產算力推理和訓練,難度不同

大模型的競爭,不是一場單純的商業競賽。近日,外商投資安全審查工作機制辦公室(國家發展改革委)依法依規對外資收購Manus項目作出禁止投資決定,要求當事人撤銷該收購交易。

監管關注的并非交易結構本身,而是技術控制權的歸屬,包括核心研發能力、系統架構、數據來源及關鍵人才是否發生實質性轉移。這一事件也釋放出一個明確信號:AI核心資產并不是可以隨意流動的普通資產,人工智能時代的核心技術正在被納入國家安全框架。

英偉達CEO黃仁勛也在近期的訪談中直言,美國對中國的出口管制正產生反效果,反而加速中國AI產業的內部整合。他警告,這種“被迫”的深度融合,可能催生出一個完全去美國化的、垂直整合的AI技術棧。他反對把中國排除在美國技術棧之外,認為這會制造兩個生態系統,反而不利于美國。更關鍵的是,出口管制并不能真正阻止中國推進AI。

但國內市場對“算力替代”的解讀,往往有些片面。今年2月,智譜宣布GLM-5完成與華為昇騰、摩爾線程、寒武紀等主流國產芯片平臺的“深度推理適配”。4月,DeepSeek-V4上線,華為昇騰、摩爾線程等多家國產芯片廠商均宣布完成“Day0適配”。

這些進展十分重要。智能體爆火之后,一個任務可能不是調用模型一次,而是幾十次、上百次地調用模型,持續進行規劃、搜索、寫代碼、讀文件、調用工具和反思重試。token調用量越大,推理成本越敏感,國產推理適配的商業價值就越大。

但“能推”和“能訓”,中間有一條寬闊的鴻溝。訓練不是把現成模型搬到芯片上去跑,而是要讓模型在國產芯片集群上,完成從數據、架構、并行策略、通信機制、算子庫、容錯系統到最終收斂的全過程。任何一個環節出問題,訓練效率就會斷崖式下滑。

有時,由于算子差異和模型分布式策略,會造成訓練推理精度一致性對齊的難題;有時又會因為一致性對齊但是訓練效率很低導致難以訓練。例如,在智能體強化學習訓練階段的采樣推理操作效率,因為國產算力的通信機制設計導致顯著低于H200,甚至能相差5倍。

對于國產芯片而言,模型訓練的難度遠高于推理。但真正要突破卡脖子,又不能只停留在“模型跑在國產芯片上”。因為如果底座模型的下一輪預訓練、下一次架構升級、下一代智能體強化學習,仍然依賴海外GPU和海外軟件生態,那就無法真正實現自主可控。

換句話說,只有在國產芯片上訓出一流大模型,國產算力生態才算完成突圍。


華為昇騰芯片

已與昇騰950深度對接,訊飛稱訓練流程將加速

作為兩家實體清單企業,訊飛很早就開始與華為昇騰攜手。

在公開發言中,科大訊飛董事長劉慶峰多次強調自主可控算力平臺的重要性。他認為,大模型研發首先需要算力支撐,但真正挑戰在國產算力生態。

相比簡單強調“適配國產芯片”,科大訊飛近些年把重點放在了國產算力訓練上,推進長思維鏈強化學習、MoE等前沿方向在國產算力上的訓練效率優化。

“去年我們在910B集群上攻克了長思維鏈強化學習和首個昇騰原生MoE模型全鏈條訓練的效率難題,訓練效率從開箱狀態下和同規模A800集群效率相比只有30%,分別提升至84%和93%?!笨拼笥嶏w管理層在業績會上表示,該公司與華為深度合作,發現并解決了許多底層bug,也日益形成了科大訊飛的優勢。

財報顯示,2025年,科大訊飛營收271.05億元,同比增長16.12%;歸母凈利潤8.39億元,同比增長49.85%;扣非凈利潤2.64億元,同比增長40.47%。“過去幾年我們聯合華為做了非常多的國產化適配和創新工作。正是這種問題的解決,使得星火大模型在央國企招投標中獲得最高市場份額?!笨拼笥嶏w管理層表示。

4月29日,科大訊飛推出基于昇騰910系列算力集群訓練的30B中等體量MoE模型訊飛星火X2-Flash。華為稱,雙方“硬件加算法”協同,聯合優化DSA等關鍵算子性能,算子效率提升超過50%,結合DSA計算特性設計親和的長序列分布式訓練策略,攻克了智能體長上下文在昇騰910系列芯片上訓練效率偏低的難題。

坦白說,真正的國產化,是在國產算力上把模型訓出來、訓強、持續迭代。這一步一旦跨過去,國產芯片就不再只是承接推理任務的替代品,而是進入大模型研發主流程。芯片、框架、算子庫、通信庫、編譯器、集群調度和模型算法會被迫一起迭代。國產算力生態不再只是外圍兼容,而是成為模型進化的一部分。

長期以來,受外部環境影響,DeepSeek與華為聯手成為眾望所歸,但DeepSeek-V4發布后,并沒有提到該模型基于昇騰訓練。華為也只是表示,昇騰950通過融合kernel和多流并行技術降低Attention計算和訪存開銷,大幅提升推理性能,結合多種量化算法,實現了高吞吐、低時延的DeepSeek-V4模型推理部署。

但科大訊飛這次明確表示,將繼續在昇騰950上訓練大模型。

“我們當前已經與片華為團隊針對950芯進行深度對接,在昇騰950平臺上聯合攻堅更高效模型結構、混合Attention機制、智能體強化學習等關鍵技術,因為950系列相對于910系列的顯存、帶寬算力等方面都有較大提升,預計我們當前的算法遷移過去之后可以很大加速我們的訓練流程。預計在今年1024開發者節期間,在昇騰950平臺上發布中國首個對標業界最先進主流模型的旗艦大模型?!笨拼笥嶏w管理層表示。

巨頭環伺,仍要直面市場競爭

自主可控是一塊堅實的壓艙石,但它并不是護城河的全部。

某種意義上,國產算力訓練的意義已經超越了“防止被卡脖子”的范疇。它讓科大訊飛面對中國龐大的政企客戶時,能夠提供一種美國芯片體系無法比擬的信任感:完整閉環、數據不出境、技術不依賴海外。從中標成績來看,這種信任正在轉化為真實的市場選擇。

“依托星辰MaaS底座,公司實現全國產算力全鏈條服務,大模型安全測評位居行業前列,幻覺率低,是央國企招標優選模型。”科大訊飛管理層在業績會上說道。

但國產算力生態依然處在完善過程中。除了昇騰生態的成熟度仍在追趕之外,全國產化鏈條中先進制程、HBM、高速互聯、先進封裝、EDA等環節仍然存在挑戰。訓練突破的戰略價值在于,它讓國產算力從“可用”走向“核心可用”,從“局部替代”走向“體系替代”。

與此同時,科大訊飛面臨的市場競爭也不容小覷。千問擁有阿里巴巴的龐大生態和C端流量,在開源模型的社區影響力上依然領先;豆包在字節系的強力扶持下,面向C端用戶的產品體驗和運營能力正在快速攀升;智譜則憑借與多家國產芯片的深度適配,在一體機和企業市場快速鋪開。當一個市場里有多個參與者都具備足夠的技術實力和資金儲備時,“自主可控”這一維度的差異化優勢,尚不足以確保一勞永逸的領先。

更值得關注的是,有競爭力的大模型不能僅僅局限在自主可控的市場中,還要走向更廣闊的領域,包括國際企業客戶、全球開發者社區和開放的技術競賽。而這些領域,在很大程度上仍由英偉達的生態和通用計算體系主導。國產算力訓練做得足夠扎實,仍舊只是整個AI產業版圖的一部分??拼笥嶏w能否在堅守國產算力堅固防線的同時,持續拓展國際影響力和商業邊界,將是未來幾年真正的考驗。

能訓是硬仗,能贏是更大的仗。在國產算力上持續訓出強模型,在世界的大舞臺上展現競爭力,才是中國大模型突破封鎖、穿越周期更大的底氣。

本文系觀察者網獨家稿件,未經授權,不得轉載。

鄂ICP備2025167458號-1