• 正文
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

晶圓級(jí)芯片,是未來(lái)

5小時(shí)前
480
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者:九林

今天,大模型參數(shù)已經(jīng)以“億”為單位狂飆。

僅僅過(guò)了兩年,大模型所需要的計(jì)算能力就增加了1000倍,這遠(yuǎn)遠(yuǎn)超過(guò)了硬件迭代的速度。目前支持AI大模型的方案,主流是依靠GPU集群。

但單芯片GPU的瓶頸是很明顯的:第一,單芯片的物理尺寸限制了晶體管數(shù)量,即便采用先進(jìn)制程工藝,算力提升也逐漸逼近摩爾定律的極限;第二,多芯片互聯(lián)時(shí),數(shù)據(jù)在芯片間傳輸產(chǎn)生的延遲與帶寬損耗,導(dǎo)致整體性能無(wú)法隨芯片數(shù)量線性增長(zhǎng)。

這就是為什么,面對(duì)GPT-4、文心一言這類萬(wàn)億參數(shù)模型,即使堆疊數(shù)千塊英偉達(dá) H100,依然逃不過(guò) “算力不夠、電費(fèi)爆表” 的尷尬。

目前,業(yè)內(nèi)在AI訓(xùn)練硬件分為了兩大陣營(yíng):采用晶圓級(jí)集成技術(shù)的專用加速器(如Cerebras WSE-3和Tesla Dojo)和基于傳統(tǒng)架構(gòu)的GPU集群(如英偉達(dá)?H100)。

晶圓級(jí)芯片被認(rèn)為是未來(lái)的突破口。

?01晶圓級(jí)芯片,兩大玩家

在常規(guī)的芯片生產(chǎn)流程中,一個(gè)晶圓會(huì)在光刻后被切割成許多小裸片(Die)并且進(jìn)行單獨(dú)封裝,每片裸片在單獨(dú)封裝后成為一顆完整的芯片。

芯片算力的提升方式,是依靠增加芯片面積,所以芯片廠商都在不斷努力增加芯片面積。目前算力芯片的單Die尺寸大約是26x33=858mm2,也就是接近曝光窗大小,但是芯片的最大尺寸無(wú)法突破曝光窗的大小。

曝光窗大小多年來(lái)一直維持不變,成為了制約芯片算力增長(zhǎng)的原因之一。

晶圓級(jí)芯片則提供了另一種思路。通過(guò)制造一塊不進(jìn)行切割的晶圓級(jí)互連基板,再將設(shè)計(jì)好的常規(guī)裸片在晶圓基板上進(jìn)行集成與封裝,從而獲得一整塊巨大的芯片。

未經(jīng)過(guò)切割的晶圓上的電路單元與金屬互連排列更緊密,從而形成帶寬更高、延時(shí)更短的互連結(jié)構(gòu),相當(dāng)于通過(guò)高性能互連與高密度集成構(gòu)建了更大的算力節(jié)點(diǎn)。所以,相同算力下,由晶圓級(jí)芯片構(gòu)建的算力集群占地面積對(duì)比GPU 集群能夠縮小 10-20 倍以上,功耗可降低 30% 以上。

全球有兩家公司已經(jīng)開(kāi)發(fā)出了晶圓級(jí)芯片的產(chǎn)品。

一家是Cerebras。這家企業(yè)從2015年成立,自2019年推出了WES-1,之后經(jīng)過(guò)不斷迭代,目前已經(jīng)推出到第三代晶圓級(jí)芯片——WES-3。

WES-3采用臺(tái)積電5nm工藝,晶體管數(shù)量達(dá)到夸張的4萬(wàn)億個(gè),AI核心數(shù)量增加到90萬(wàn)個(gè),緩存容量達(dá)到了44GB,可以支持高達(dá) 1.2PB 的片外內(nèi)存。

WES-3的能力可以訓(xùn)練比GPT-4和Gemini大10倍的下一代前沿大模型。四顆并聯(lián)情況下,一天內(nèi)即可完成700億參數(shù)的調(diào)教,支持最多2048路互連,一天便可完成Llama 700億參數(shù)的訓(xùn)練。

這些都是集成在一塊215mm×215mm=46,225mm2的晶圓上。

如果這個(gè)對(duì)比還不夠明顯,那可以這么看:對(duì)比英偉達(dá)H100,WES-3的片上內(nèi)存容量是 H100的880倍、單芯片內(nèi)存帶寬是H100的7000倍、核心數(shù)量是H100的52倍,片上互連帶寬速度是H100的3715倍。

另一家是特斯拉。特斯拉的晶圓級(jí)芯片被命名為Dojo。這是馬斯克在2021年就開(kāi)始的嘗試。

特斯拉Dojo的技術(shù)路線和Cerebras不一樣。是通過(guò)采用Chiplet路線,在晶圓尺寸的基板上集成了 25 顆專有的 D1 芯粒(裸Die)。

D1芯粒在645平方毫米的芯片上放置了500億個(gè)晶體管,單個(gè)芯??梢蕴峁?62 TFlops BF16/CFP8的計(jì)算能力。合起來(lái)的單個(gè)Dojo擁有9Petaflops的算力,以及每秒36TB的帶寬。

特斯拉的Dojo系統(tǒng)專門(mén)針對(duì)全自動(dòng)駕駛(FSD)模型的訓(xùn)練需求而定制。思路是從25個(gè)D1芯?!?個(gè)訓(xùn)練瓦(Training Tile)→6個(gè)訓(xùn)練瓦組成1個(gè)托盤(pán)→2個(gè)托盤(pán)組成1個(gè)機(jī)柜→10個(gè)機(jī)柜組成1套ExaPOD超算系統(tǒng),能夠提供1.1EFlops的計(jì)算性能。

02晶圓級(jí)芯片與GPU對(duì)比

既然單芯片GPU和晶圓級(jí)芯片走出了兩條岔路,在這里我們以Cerebras WSE-3、Dojo 和英偉達(dá) H100為例,對(duì)比一下兩種芯片架構(gòu)對(duì)算力極限的不同探索。

一般來(lái)說(shuō)AI 訓(xùn)練芯片 GPU 硬件的性能通過(guò)幾個(gè)關(guān)鍵指標(biāo)進(jìn)行評(píng)估:每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPS)?,表明GPU 在深度學(xué)習(xí)中必不可少的矩陣密集型運(yùn)算中的原始計(jì)算能力的強(qiáng)弱。內(nèi)存帶寬,決定了訪問(wèn)和處理數(shù)據(jù)的速度,直接影響訓(xùn)練效率。延遲和吞吐量,能夠評(píng)估GPU處理大數(shù)據(jù)負(fù)載和模型并行性的效率,從而影響實(shí)時(shí)性能。

算力性能

Cerebras WSE-3 憑借單片架構(gòu),在 AI 模型訓(xùn)練中展現(xiàn)獨(dú)特潛力。

一般來(lái)講,每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPS) 能夠表明GPU 在深度學(xué)習(xí)中必不可少的矩陣密集型運(yùn)算中的原始計(jì)算能力。WSE-3 的 FP16 訓(xùn)練峰值性能達(dá)到 125 PFLOPS,支持訓(xùn)練高達(dá) 24 萬(wàn)億參數(shù)的 AI 模型,且無(wú)需進(jìn)行模型分區(qū)處理。這個(gè)功能就特別適合以精簡(jiǎn)高效的方式處理超大模型。

與依賴分層內(nèi)存架構(gòu)(可能造成處理瓶頸)的傳統(tǒng)?GPU 不同,WSE 的設(shè)計(jì)使850 個(gè)核心可獨(dú)立運(yùn)行,并直接訪問(wèn)本地內(nèi)存,這樣就有效提升了計(jì)算吞吐量。

在這方面,英偉達(dá)H100采用的是模塊化和分布式方法。單個(gè) H100 GPU 可為高性能計(jì)算提供 60 TFLOPS FP64 計(jì)算能力,八個(gè)互連的 H100 GPU 組成的系統(tǒng),可實(shí)現(xiàn)超 1 ExaFLOP 的 FP8 AI 性能。

但分布式架構(gòu)就存在數(shù)據(jù)傳輸問(wèn)題,雖然NVLink 和 HBM3 內(nèi)存能降低延遲,但在訓(xùn)練超大型模型時(shí),GPU 間通信仍會(huì)影響訓(xùn)練速度。

在AI訓(xùn)練的表現(xiàn)中,Cerebras WSE-3會(huì)更加擅長(zhǎng)處理超大型模型。2048個(gè)WSE-3系統(tǒng)組成的集群,訓(xùn)練Meta的700億參數(shù)Llama 2 LLM僅需1天,相比Meta原有的AI訓(xùn)練集群,速度提升達(dá)30倍。

延遲與吞吐量

從數(shù)據(jù)傳輸來(lái)看,WSE-3 的單片架構(gòu)避免了多芯片間的數(shù)據(jù)傳輸,顯著降低延遲,支持大規(guī)模并行計(jì)算和核心間低延遲通信。速度快是單片的優(yōu)勢(shì),與傳統(tǒng)GPU 集群相比,WSE-3 可將軟件復(fù)雜度降低高達(dá) 90%,同時(shí)將實(shí)時(shí) GenAI 推理的延遲降低 10倍以上。

特斯拉Dojo Training Tile屬于晶圓級(jí)集成,當(dāng)然也能夠大幅降低通信開(kāi)銷。由于是從Die到Die之間傳遞,在跨區(qū)塊擴(kuò)展時(shí)仍會(huì)產(chǎn)生一定延遲。目前,Dojo 能實(shí)現(xiàn) 100 納秒的芯片間延遲,并且針對(duì)自動(dòng)駕駛訓(xùn)練優(yōu)化了吞吐量,可同時(shí)處理 100 萬(wàn)個(gè)每秒 36 幀的視頻流。

英偉達(dá)H100基于 Hopper 架構(gòu),是目前最強(qiáng)大的AI訓(xùn)練GPU之一,配備18,432個(gè)CUDA 核心和640個(gè)張量核心,并通過(guò)NVLink和NVSwitch系統(tǒng)實(shí)現(xiàn)GPU間高速通信。高速通信。雖然多 GPU 架構(gòu)具備良好擴(kuò)展性,但數(shù)據(jù)傳輸會(huì)帶來(lái)延遲問(wèn)題,即便NVLink 4.0 提供每個(gè)GPU 900 GB/s的雙向帶寬,延遲仍高于晶圓級(jí)系統(tǒng)。

盡管能夠憑借著架構(gòu)特性實(shí)現(xiàn)單晶圓工作負(fù)載的低延遲和高吞吐量,但晶圓級(jí)系統(tǒng)如WSE-3 和 Dojo面臨著可擴(kuò)展性有限、制造成本高和通用工作負(fù)載靈活性不足的問(wèn)題。

誰(shuí)更劃算?

從硬件購(gòu)置成本來(lái)看,不同芯片的價(jià)格因架構(gòu)和應(yīng)用場(chǎng)景而異。

據(jù)報(bào)道,特斯拉單臺(tái)Tesla Dojo 超級(jí)計(jì)算機(jī)的具體成本估計(jì)在3 億至 5 億美元之間。技術(shù)路線上,Dojo采用的是成熟晶圓工藝再加上先進(jìn)封裝(采用了臺(tái)積電的Info_SoW技術(shù)集成),去實(shí)現(xiàn)晶圓級(jí)的計(jì)算能力,能夠避免挑戰(zhàn)工藝極限。這既能保證較高的良品率,又便于實(shí)現(xiàn)系統(tǒng)的規(guī)?;a(chǎn),芯粒的更新迭代也更為輕松。

Cerebras WSE 系統(tǒng)則因先進(jìn)的制造工藝與復(fù)雜設(shè)計(jì),面臨較高的初期研發(fā)和生產(chǎn)成本。據(jù)報(bào)道,Cerebras WSE-2 的每個(gè)系統(tǒng)成本在 200 萬(wàn)至 300 萬(wàn)美元之間。

相比之下,英偉達(dá)單GPU的采購(gòu)成本比較低。以英偉達(dá)A100來(lái)說(shuō),40GB PCIe型號(hào)價(jià)格約 8,000 - 10,000美元,80GB SXM型號(hào)價(jià)格在18,000 - 20,000美元。這使得許多企業(yè)在搭建 AI 計(jì)算基礎(chǔ)設(shè)施初期,更傾向于選擇英偉達(dá)GPU。不過(guò),英偉達(dá)GPU在長(zhǎng)期使用中存在能耗高、多芯片協(xié)作性能瓶頸等問(wèn)題,會(huì)導(dǎo)致運(yùn)營(yíng)成本不斷增加。

總體來(lái)看,雖然WSE-2能為超大規(guī)模AI模型提供超高計(jì)算密度,但對(duì)于需要在大型數(shù)據(jù)中心云服務(wù)中部署多GPU可擴(kuò)展方案的機(jī)構(gòu),A100的成本優(yōu)勢(shì)更為明顯。

03結(jié)語(yǔ)

常規(guī)形態(tài)下,集群算力節(jié)點(diǎn)越多,則集群規(guī)模越大,花費(fèi)在通信上的開(kāi)銷就越大,集群的效率就越低。

這就是為什么,英偉達(dá)NVL72 通過(guò)提升集群內(nèi)的節(jié)點(diǎn)集成密度(即提高算力密度)。在一個(gè)機(jī)架中集成了遠(yuǎn)超常規(guī)機(jī)架的 GPU 數(shù)量,使得集群的尺寸規(guī)模得到控制,效率才能實(shí)現(xiàn)進(jìn)一步提升。

這是英偉達(dá)權(quán)衡了良率和成本之后給出的解決方案。但是如果英偉達(dá)繼續(xù)按照這種計(jì)算形態(tài)走下去,想要進(jìn)一步提升算力密度,就會(huì)走到晶圓級(jí)芯片的路上。畢竟,晶圓級(jí)芯片的形態(tài)是目前為止算力節(jié)點(diǎn)集成密度最高的一種形態(tài)。

晶圓級(jí)芯片,潛力無(wú)限。

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫(xiě)文章/發(fā)需求
立即登錄

公眾號(hào):半導(dǎo)體產(chǎn)業(yè)縱橫。立足產(chǎn)業(yè)視角,提供及時(shí)、專業(yè)、深度的前沿洞見(jiàn)、技術(shù)速遞、趨勢(shì)解析,鏈接產(chǎn)業(yè)資源,構(gòu)建IC生態(tài)圈,賦能中國(guó)半導(dǎo)體產(chǎn)業(yè),我們一直在路上。