国产在线拍揄自揄视精品一区|求快播网站你们懂得|好老师的小兔子好软水好多|夫妻性全过程实拍|s8视频网站|精品一区二区传媒公司|男女生的节日对比

何庭波署名論文發布,詳解刷屏的華為“芯”技術

來源:芯觀點

在今天于上海舉行的芯一場行業大會上,華為公司董事、何庭華半導體業務部總裁何庭波在題為《半導體新路徑探索與實踐》的波署布詳投票最后沖刺主旨演講中,正式發表“韜(τ)定律”。名論這是解刷技術中國在全球半導體領域首次提出指導產業發展的新原則。基于該定律,芯華為過去六年已成功設計并量產了381款芯片。何庭華今年秋季,波署布詳華為將發布新的名論麒麟手機芯片,完整采用邏輯折疊技術,解刷技術大幅提升相關性能。芯

隨后,何庭華華為發布了一篇署名為何庭波的波署布詳論文,詳細介紹了這些新技術和進展。名論

摘要

六十年來,解刷技術摩爾定律的幾何縮放推動了半導體技術的進步。然而,這一行業共識已不再適用:純粹尺寸縮小帶來的收益已趨于平緩,尖端芯片的設計預算超過十億美元,而最先進節點的晶體管成本也不再下降。本文提出了一種新的縮放原則——τ縮放。該原則以時間本身而非晶體管面積作為衡量進步的主要指標,并采用單一的特征時間常數τ作為統一的優化目標,涵蓋從開關晶體管到數據中心工作負載的十二個數量級。本文展示了兩個量產規模的演示案例。在移動SoC上,LogicFolding(一種將數字、模擬和存儲電路劃分到垂直堆疊的有源層的方法)在固定器件節點上實現了晶體管密度55%的階梯式提升和41%的能效提升。在人工智能系統方面,由內存語義統一總線架構、近封裝Hi-ONE光I/O和邊緣到表面3D折疊技術組成的協同設計堆棧,預計到2035年硬件集成度將增長100倍以上。更深層次的論斷是方法論上的:τ擴展是自Dennard以來第一個在整個計算堆棧中建立共享優化目標的擴展原則。

引言

自20世紀60年代中期以來,半導體行業一直以納米為單位衡量發展。每隔18個月,晶體管尺寸縮小,頻率提升,每個邏輯門的成本下降。摩爾定律既是一項經驗觀察,也幫助建立了一個行業契約,整個計算體系都建立在這個契約之上。然而,這個行業契約如今已不再適用。在7納米節點之后,

幾何級數縮放不再像過去那樣帶來顯著效益。光刻工具正接近圖形化的物理極限,極紫外光刻 (EUV) 折舊占據了晶圓成本的大部分,而且每個晶體管的價格曲線已經趨于平緩——在某些情況下甚至出現逆轉。對于那些難以獲得最先進光刻技術的企業而言,這種限制來得更早,影響也更加嚴重。

因此,投票最后沖刺行業的核心問題已經發生了變化。不再是“晶體管還能縮小多少?”,而是“應該縮放什么,以及縮放的目標是什么?”過去六年,華為半導體團隊在移動SoC、AI加速器、系統架構和封裝等領域,對這個問題進行了深入研究。

最終結論是,答案并非在于采用新的制程節點或晶體管架構,而在于改變主要的優化目標本身。這一觀點認為,未來十年電子系統的發展方向不應是幾何縮放,而應是時間縮放——即系統性地降低堆疊每一層中單一特征時間常數τ,從皮秒級晶體管開關到秒級數據中心工作負載響應。下文將結合2020年5月至2026年5月期間381款量產芯片的經驗,從科學方法和產業路線圖兩個方面闡述τ縮放的必要性。

幾何時代的終結

在半導體行業的大部分歷史中,其主要任務只有一個:縮小晶體管的尺寸。戈登·摩爾 (Gordon Moore) 于1965年觀察到晶體管密度大約每兩年翻一番,十年后,羅伯特·丹納德 (Robert Dennard) 的縮放理論對此進行了補充。該理論指出,電壓和尺寸的成比例縮小可以保持電場強度恒定。幾何縮放和丹納德縮放共同作用,在近五十年的時間里,實現了每瓦性能和每美元性能的指數級提升。

這種局面分兩個階段瓦解。大約在2005年,丹納德縮放率先失效:電壓不再與特征尺寸成比例縮放,暗硅時代由此開啟。幾何縮放則持續了更長時間,這得益于 FinFET 以及后來的環柵 (GAA) 器件架構。然而,在7納米之后,純粹依靠尺寸縮放帶來的收益已經趨于平緩。其原因現在已得到充分論證:速度飽和將固有延遲對溝道長度的依賴性從二次方降低到線性;局部互連的寄生電阻和電容日益占據標準單元延遲預算的大部分;掩模成本、EUV折舊以及設計規則的復雜性,使得2納米節點的尖端芯片設計預算超過了每片芯片10億美元。

由此帶來的經濟后果同樣不容忽視。在先進節點,晶體管成本增長趨于平緩,而在尖端節點,晶體管成本卻在不斷上升。過去五十年支撐著整個行業的“每代都以更低的成本生產更多晶體管”的理念已不再適用。對于華為半導體而言,這一轉變還帶來了一個額外的限制:獲取最先進光刻工具的渠道受限。指望下一個節點就能解決這個問題已不再可行。六年前,這種幾何級數增長的趨勢已經停滯不前,迫使人們面對一個更為根本的問題——一個事后看來整個行業最終都必須面對的問題。

時間而非空間:摩爾時代的真正貨幣

摩爾定律本質上并非幾何形狀,而是對最終用戶影響最大的技術。更小的晶體管之所以能提升系統性能,是因為它們切換速度更快。更密集的互連線之所以能提升性能,是因為信號傳輸距離更短。更高的集成度之所以能提升性能,是因為數據跨越的邊界更少。每一代技術帶來的本質上都是時間的縮短——器件層面從皮秒到納秒,芯片層面從納秒到微秒,系統層面從微秒到秒。空間縮放僅僅是壓縮時間的工具。

一旦認識到這一點,一個顯而易見的重新定義便浮現出來。時間本身應該被用作主要衡量標準。可以在堆疊的每一層——晶體管、電路、芯片和系統——定義一個特征時間常數 τ,并將其降低作為統一的優化目標。幾何縮放就成為眾多降低 τ 的技術之一,而非唯一的方法。

這一原理被稱為τ標度律,本文將其作為幾何摩爾標度律的繼任者,作為半導體演化的指導原則。形式上,τ被視為一個分層結構,可以分解為:

其中:

分別代表晶體管層、電路層、芯片層和系統層的時間常數。每一層的 τ 由其下層的時間常數以及該層引入的組織和通信開銷組成。 τ 的工作空間在時間上跨越約十二個數量級(從皮秒到秒),在空間上也跨越相當的范圍(從納米到千米)。在每一層,都有不同的機制可用于降低 τ:

? 晶體管:固有開關延遲,可通過提高遷移率、應變工程、高介電常數/金屬柵極和 GAA 架構來解決,并且越來越多地通過降低局部互連的寄生電阻和電容來解決,這些寄生電阻和電容目前已超過固有渡越時間數倍。

? 電路:沿信號路徑的 RC 傳播延遲,可通過低電阻導體、低介電常數材料來解決,以及——最重要的是——通過垂直集成縮短導線長度來解決。

? 芯片:計算和內存訪問延遲,可通過架構選擇、流水線深度、內存層次結構和片上互連結構來解決。

? 系統:端到端消息傳遞和同步時間,可通過互連拓撲結構、協議棧和互連結構設計來解決。

從這種分層式的表述中可以得出一條有用的世代規律:

其中,縮放因子 α 是特定于應用的,而非通用的。迄今為止的生產經驗表明,對于功耗受限的移動設備,α ≈ 每年1.3倍;對于安全至關重要的自主系統,α ≈ 每年1.5倍;而對于 AI 工作負載,α 可達每年10倍,因為吞吐量直接轉化為經濟價值。

τ 之所以成為一個有用的主要指標,而不是對現有指標的重新命名,是因為它在整個技術棧中都是同一個指標。頻率、延遲、帶寬和吞吐量在其各自的層級都由 τ 控制。工藝技術專家、電路設計師和系統架構師可以用相同的單位討論同一個量。τ 是實現端到端技術棧協同優化的語言——而每層獨立優化、時序成為次要因素的時代已經結束。

邏輯折疊:移動SoC的驗證案例

τ縮放的首次量產規模測試在移動設備領域展開。智能手機SoC的特殊之處在于,單個芯片構成了整個系統。多插槽并行架構無法實現;即使擁有上千個節點,也無法彌補鏈路速度慢的問題。所有交付給用戶的性能都源自單個芯片,功耗僅為幾瓦,并且受到手持設備外形尺寸限制帶來的散熱限制。

2020年之后,隨著先進制程節點的獲取受到限制,關鍵問題變成了:在制程節點固定的情況下,如何在單個芯片上持續實現代際性能提升?

最終的答案就是邏輯折疊(LogicFolding)。

定義:邏輯折疊是一種設計方法,它將數字電路、模擬電路和存儲電路劃分到垂直堆疊的有源層中,遵循時間縮放原則,從而在性能、功耗和面積之間實現協同優化。

數字電路分為組合邏輯(寄存器之間的布爾網絡)和時序邏輯(用于保持狀態的觸發器)。數字系統的性能上限取決于相鄰觸發器級之間的關鍵路徑延遲,而關鍵路徑延遲又主要取決于互連RC值和沿該路徑的門數。傳統的優化方法是將門電路放置在一個平面上,并將導線穿過上方的金屬堆疊層;導線越長,寄生RC值越大,關鍵路徑延遲就越長。

LogicFolding 摒棄了平面布局的假設。關鍵路徑上的門電路分布在兩個(最終可能更多)垂直堆疊的有源層上,并通過超細間距混合鍵合連接。從電路設計者的角度來看,這兩個層就像一個連續的整體,單元分布在晶圓邊界上,如同額外的金屬層。信號線顯著縮短,寄生RC值急劇下降,時鐘偏移減小,芯片在相同的器件節點上以更高的時鐘頻率運行。

為了幫助 LogicFolding 實現這些優勢,保持混合鍵合間距與頂層金屬間距之間的齒輪比相對較低(實際應用中通常低于3,齒輪比越低越好)是有利的。目前頂層金屬間距約為720 nm,這意味著混合鍵合間距應低于2 μm,理想情況下齒輪比約為1,此時鍵合界面處的鳥籠式布線(bird-cage routing)開銷將基本消失。實現這一間距,以及所需的套刻精度(<0.5 μm)、TSV 尺寸縮小(CD 和 KOZ 小于1.5 μm,間距小于6 μm)和良率(采用智能冗余時接近100%),需要供應商和合作伙伴生態系統進行多年的工藝開發。

在麒麟2026芯片上測得的結果非常具體:

? 晶體管密度在一代芯片內從155 MTr/mm2逐步提升至238 MTr/mm2(晶體管密度使用以下公式計算):

麒麟SoC設計的面積利用率達到68%)——這種提升幅度以前需要三年幾何級數擴展才能實現。

? SoC 性能核心能效提升41%,最大時鐘頻率提升近13%。

? 構建于上下兩層的高速全局片上網絡數據通路,使數據通路占用空間減少55%,并提升了供電穩定性。

? 芯片后時鐘偏移調整方案獨立提升了5% 以上的 SoC 性能。

? 在 SRAM 中——訪問速度、每比特能耗和面積均高度依賴于位線和字線長度——LogicFolding 技術縮短了關鍵路徑,降低了每比特能耗,并將工作頻率提升了40% 以上。

? 在一個典型的處理核心上,雙層折疊架構使時鐘緩沖器數量減少了50% 以上,時鐘偏移減少了25%,線路長度減少了約30%。

這些性能提升是在固定的器件節點上實現的,并非通過新的光刻工藝,而是通過對三維邏輯空間分布進行拓撲重組來實現的。

Kirin 2026芯片中采用的LogicFolding技術刻意保持保守。混合鍵合間距達到1.5微米;TSV(硅通孔)的著陸層僅比頂層金屬低一級;折疊技術僅沿關鍵路徑選擇性地應用,而非覆蓋整個設計。即便如此,今年的CPU核心頻率仍回升至3.1GHz。

未來十年,LogicFolding 有望從局部關鍵路徑折疊發展到全規模多層折疊——每個封裝三層、四層甚至更多層——這得益于低溫混合鍵合技術(降低各層之間的熱預算)以及 TSV 接地從頂層金屬向下遷移至 M6層,從而釋放超過30% 的高級布線資源。從2026年到2035年,晶體管密度預計將提升至400 MTr/mm2 甚至更高。同時,LogicFolding 使麒麟芯片能夠大幅提升 CPU 核心頻率,并為實現4 GHz 及更高頻率鋪平道路(表1)。該路線圖切實可行,且在成本方面具有經濟效益。

表1.麒麟 CPU 性能核心運行頻率趨勢。

側邊欄 A — LogicFolding 概覽

? 混合鍵合間距:小于2 μm(麒麟2026為1.5 μm;目標gear ratio ≈ 1)

? 套刻精度:小于0.5 μm

? TSV CD/KOZ:小于1.5 μm;間距小于6 μm;故障率 <100 ppm;修復率99.9%

? 良率:采用智能冗余時接近100%

? 晶體管密度:單步實現155 → 238 MTr/mm2

? 功耗效率/頻率增益(SoC P 核):+41% / +13%

? SRAM 工作頻率:+40% 以上

? 典型核心的時鐘緩沖器數量/時鐘偏移/線長:-50% / -25% / -30%

從皮秒到微秒:人工智能數據中心的 τ 擴展

一個自然而然的問題是,在毫瓦級智能手機領域發展起來的原則,能否推廣到吉瓦級的人工智能訓練和推理領域。人工智能工作負載處于 τ 擴展譜的另一端:它并非單個芯片,而是成百上千個芯片協同工作,構成一臺機器,其總計算能力在過去十年中增長了約六個數量級。答案是肯定的——前提是將 τ 視為系統級目標,并應用于整個計算鏈,而不是單個加速器。

關于 τ 擴展的人工智能論點,有兩個事實。首先,人工智能系統持續增長——從單個芯片,到幾十個,到幾百個,再到數萬個。其次,現代人工智能系統的能源預算和材料預算主要由數據而非計算決定。大型人工智能集群中超過80% 的能源消耗于數據傳輸;超過70% 的系統成本分配給了數據存儲。這意味著:減少數據傳輸時間(芯片間、機架間以及封裝內部)至少與減少計算本身的計算時間同等重要。

τ 擴展在人工智能規模上通過三個協調的層來實現:系統架構(統一總線)、近封裝光學引擎(Hi-ONE:near-packaged optical engine)以及封裝本身的拓撲重組(3D 折疊)。

統一總線——τ優先系統架構

傳統的多節點、多加速器架構通過多個堆疊協議傳輸數據:PCIe 到主機,機箱內部使用 NVLink 或專有架構,機箱之間使用以太網或 InfiniBand,以及最上層的軟件棧遠程內存訪問。每一層都需要協議轉換、額外的序列化、額外的 DMA 緩沖區和額外的握手。每次轉換都會增加延遲、降低可靠性并產生額外成本。

統一總線 (UB) 用一個在機箱內部和機箱之間運行的單一協議取代了這種協議棧——一個完全對等的架構,它在整個系統中原生地暴露內存語義。數據傳輸簡化為在內存語義層進行無轉換的對等傳輸,并使用硬件管理的一致性來代替軟件棧消息傳遞。經測量,性能提升約為兩個數量級:端到端遠程訪問延遲從 TCP/IP 級協議棧典型的幾十微秒降至約100納秒——沿主要通信軸線的系統 τ 降低了約500倍。在機架規模上,這使得系統性能漸近地接近于一臺單一的、結構一致的機器——內部稱之為“系統即芯片”(System-as-One-Chip)。

Hi-ONE——Optical I/O at the Package

通信延遲降低后,下一個瓶頸隨之而來。提高單個機架內芯片的密度,會將功率密度和可靠性推向極限,同時也會推高電控SerDes的性能。對于每個AI芯片400 Gb/s的帶寬,銅纜布線仍然成熟可靠。但對于每個芯片數Tb/s的帶寬,銅纜布線在物理上變得不切實際:SerDes的產能達到合同上限,布線體積過大,面板安裝變得不可行,散熱和供電裕量也捉襟見肘。

華為半導體開發的方案是高密度光互連節點引擎Hi-ONE——一種近封裝的光引擎,每個模塊可提供8 Tb/s的帶寬,與單個光鏈路上AI芯片的UB帶寬相匹配。它將所需的SerDes傳輸距離從約100厘米縮短至約5厘米,無需笨重的線纜,并將傳輸距離從不足1米擴展至100米,從而使分布式千兆級數據中心的高密度互連成為現實。

Hi-ONE的設計理念本身就是一種τ擴展論證。Hi-ONE沒有采用用于實現高信號保真度的大型DSP,而是采用了一種線性方法——模擬均衡增強的驅動器和跨阻放大器——并允許UB協議容忍略微放寬的誤碼率。這種協議層和物理層之間的跨層權衡降低了功耗、成本和集成復雜性,并體現了τ優先方法論所推崇的跨層權衡。

N2 與 N 的兩難困境,以及3D 折疊的必然性

人工智能加速器不會止步于2.5D 扇出的最深層原因在于幾何學,這一點值得明確闡述,因為它決定了2030年以后的發展路線圖。

在傳統的2.5D 人工智能芯片中,邏輯芯片位于封裝中心,HBM 堆疊和 SerDes 排列在其邊緣,電壓調節器環繞封裝。每個內存信號、每個互連信號以及每一安培的供電電流都必須沿著芯片邊緣傳輸才能到達內部的計算資源。如果芯片的邊長為 N,那么:

? 計算能力與 N2(面積)成正比,

? 但內存帶寬、互連和供電——所有這些都由沿邊緣的2.5D 扇出承載——僅與 N(周長)成正比。

這些二次曲線和線性曲線之間日益擴大的差異構成了扇出困境,也解釋了為何無論底層邏輯節點多么激進,2.5D 擴展都無法實現。任何晶體管級的改進都無法彌補拓撲缺陷。

3D 折疊技術通過將邊緣資源轉移到表面上解決了這一困境。電源(通過背面電源和集成電壓調節器)、高速存儲器(通過與邏輯混合鍵合)以及光 I/O(通過近封裝 Hi-ONE)都從周邊遷移到垂直表面——一旦位于表面上,它們就可以以 N2 的速度擴展,與計算速度的平方相匹配。封裝不再是一個被周邊存儲器和 SerDes 包圍的邏輯芯片;它變成了一個垂直集成的堆疊結構,其中存儲器、互連結構、電源和邏輯都同步擴展。

路線圖為這一演進設定了明確的時間表。到2030年左右,AI加速器(升騰SuperPoD系列——2025年的升騰910C、2026年的升騰950以及后續的升騰990)將依賴于一系列成熟技術的組合:芯片組、2.5D扇出以及通過微凸點和標準間距混合鍵合實現的3D堆疊。大約在2030年,升騰990將把LogicFolding引入AI加速器領域,此后,3D Folding將成為2035年之前實現α性能提升的主要載體。在此過程中,預計到2035年硬件集成度將提升100倍以上,τ性能的提升將分布在堆疊的每一層,而不是集中在器件層面。

側邊欄 B — AI 系統規模下的 τ

? UB 遠程訪問延遲:~10微秒 → ~100納秒(τ 降低約500倍)

? HiONE 單模塊帶寬:8 Tb/s(與單芯片 UB 帶寬匹配)

? HiONE SerDes 傳輸距離:~100厘米 → ~5厘米;面板間傳輸距離:<1米 → 100米

? 扇出難題:計算量 ∝ N2,周長限制下的帶寬/I/O/功耗 ∝ N

? 3D 折疊:將帶寬、光 I/O 和電源從邊緣轉移到表面,恢復 N2 奇偶性

? 2026年到2035年預計硬件集成增長:>100倍

邏輯與內存:從解耦到融合

τ 縮放的一個影響值得單獨探討,因為它既關乎產業也關乎技術。

在8086時代,業界通過標準化的內存總線有意地將處理器和內存解耦。這種解耦使得兩個行業能夠獨立發展:處理器性能沿著摩爾曲線快速提升,而內存供應商則與之并行發展出一個龐大的獨立市場。

人工智能時代正在逆轉這種解耦。計算密度的持續增長正將內存帶寬、延遲、功耗和封裝推向極限。HBM、混合鍵合和3D 堆疊 SRAM 都體現了一個根本事實:對于現代人工智能工作負載而言,數據傳輸與計算本身同樣重要,邏輯和內存再次被推向緊密的物理集成。隨著它們的融合,供應鏈中的影響力平衡正在向內存和封裝供應商傾斜。

技術方向已然明確,但經濟解決方案尚未確定。在人工智能硬件時代,能夠將邏輯和記憶技術融合,并建立經濟伙伴關系,使這兩個行業長期共享融合成果的企業,才能獲得持久的成功。這不僅僅是一個研究問題,更是未來十年整個行業必須解決的結構性問題。τ 擴展通過揭示每次分離的跨層成本,確保了這個問題無法被推遲解決。

未解決的挑戰

將 τ 擴展視為一個完整的系統是不恰當的。目前仍存在一些實質性問題,在此列出這些問題旨在突出正在進行的工作并邀請各方合作。

工具鏈和方法論:當今的 EDA 開發于一個以面積、時序和功耗三個獨立維度進行優化的時代,系統 τ 只是一個剩余部分。全尺寸邏輯折疊要求工具鏈將多個堆疊芯片視為一個連續的設計實體——以單元粒度而非塊粒度劃分邏輯,在統一的成本函數下將邏輯放置在整個體積內,并在芯片間路徑上執行時序收斂,因為垂直互連寄生效應、KOZ 排除項和晶圓間工藝偏差等因素相互作用,而傳統的二維訓練工具無法充分解決這些問題。我們已經開發出初步的內部工具,這些工具能夠產生有用的結果,方法論細節將在未來幾個月內公布。一個 τ 原生工具鏈——開放的、多物理場的、3D 原生的——是未來十年最重要的賦能投資。

晶圓間工藝偏差:LogicFolding 將來自不同批次(有時甚至是不同節點)的晶圓進行鍵合。晶圓間閾值電壓 (Vth)、驅動電流和互連 RC 的偏差遠大于晶圓內偏差,并且對時鐘分布和保持時間裕量的影響最大。智能冗余、自適應補償和考慮 τ 的簽核流程是應對這些偏差的必要組成部分。

垂直互連開銷:每個混合鍵合和每個TSV都會產生有限的電阻和電容開銷,并且TSV KOZ會取代標準單元。因此,邏輯折疊必須通過簡單的不等式逐層進行合理化。

對于移動關鍵路徑和內存而言,這一閾值已被突破;該閾值取決于工作負載,并且隨著鍵合間距的縮小,該邊界也會隨之移動。

能耗:τ 是時間定律,而非焦耳定律。一個運行速度提升10倍但功耗也增加10倍的超級節點,并未違反任何擴展性原則,卻超出了電網容量。因此,τ 擴展需要能量方面的配合:消除堆棧開銷的內存語義架構、將每比特皮焦耳功耗降低幾個數量級的近封裝/共封裝光學器件、背面供電、內存內/內存內計算,以及將 τ 擴展空間轉化為能量的合理做法(數據中心規模的動態電壓頻率調節——智能手機電池長壽命的保障機制)。

重要的是,當 τ 擴展空間用于能量時,它本身也能提供能量擴展空間。基準測試。業界當前的性能基準測試——Linpack、MLPerf、SPEC——是為每個工作負載只需一個標量就足夠了的時代設計的。 τ 擴展型行業需要 τ 剖面基準——這些向量揭示了系統每一層的主導 τ 值以及該層剩余的擴展空間。主導 τ 值所在的層,顧名思義,就是下一個投資重點。

六年展望,十年展望

從2020年5月到2026年5月,華為半導體設計并量產了381款芯片,服務于移動、人工智能、汽車、工業和基礎設施市場。在這些產品組合中,τ 擴展理論得到了驗證:

? 在器件和電路層,晶體管密度已從155提升至2031年的400+MTr/mm2。

? 在芯片層,LogicFolding 技術已在領先的移動 SoC 上證明,在固定的器件節點上,關鍵路徑頻率、能效和密度可以持續提升。

? 在系統層,Unified Bus 和 Hi-ONE 技術已證明,數百微秒的通信時間 τ 可以壓縮至數百納秒,并且多機架人工智能集群可以像一臺獨立的機器一樣運行。

展望未來,CPU核心頻率預計到2029年將達到4GHz及以上,麒麟SoC的能效預計在三到五年內典型使用情況下將提升一倍以上,而人工智能硬件集成度預計到2035年將增長100倍以上。

更深層次的論斷,超越任何單一產品,在于方法論層面。τ擴展是自Dennard以來首個為整個堆棧提供共享優化目標的擴展原則。它向工藝技術專家、電路設計師、架構師、系統工程師和軟件團隊表明,這些群體現在正在以相同的單位優化相同的量,并且任何單層的改進都必須傳播到系統τ才能產生影響。它還向行業戰略家和資本配置者表明,下一個資金應該流向τ,而不是節點——競爭性性能不再需要始終處于光刻技術的前沿,封裝、內存帶寬和架構設計現在擁有了以往僅由前沿邏輯節點占據的戰略地位。

對于一代從小接受“摩爾定律”等同于“進步”的工程師來說,這是一個艱難的轉變。事實上,幾何時代已經結束;否認這一事實并非明智之舉。通過小型化實現加速的時代正在讓位于通過多層電子系統中的τ優化實現加速的時代——未來六到十年內,那些將τ作為首要目標的公司、研究團隊和生態系統,將決定未來十年計算領域的格局。

未來十年的工作規劃已經完成。許多懸而未決的問題依然存在,沒有任何一個組織能夠獨自解決——工具鏈、標準、基準測試、器件物理以及經濟模型都需要來自不同企業的共同貢獻。因此,本文既是一份來自實踐的報告,也是一份邀請。

未來的發展路線圖充滿挑戰,但方向明確。

作者簡介:

何庭波領導華為半導體業務。她領導的團隊在2020年至2026年間設計并量產了381款芯片,涵蓋移動、人工智能、汽車和基礎設施市場,并且是τ縮放方法以及本文中提到的LogicFolding、UnifiedBus和Hi-ONE技術的源頭。

鄂ICP備2025167458號-1