• 正文
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

關(guān)于華為CloudMatrix384昇騰AI云服務(wù),看這一篇就夠了!

06/23 17:33
597
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

前段時間,華為發(fā)布了一款針對AI智算場景的重磅產(chǎn)品——CloudMatrix384,在行業(yè)內(nèi)外引起了不小的震動。

 

CloudMatrix384是一個超節(jié)點(Super Node),相當(dāng)于一臺超級“服務(wù)器”。它搭載了384顆華為昇騰NPU和192顆鯤鵬CPU,單卡推理吞吐量可以達(dá)到2300 Tokens/s。同時,推理的時延也得到了極大降低,原來100ms的增量Token輸出時延,現(xiàn)在降低到了50ms以下。

 

CloudMatrix384

 

輿論普遍認(rèn)為,在目前全球AI算力需求高速增長的背景下,CloudMatrix384的橫空出世,將徹底打破國外對AI算力市場的壟斷,改變中國乃至全球AI產(chǎn)業(yè)的格局。

 

小棗君一直想寫一篇關(guān)于CloudMatrix384的文章,但苦于官方公開的資料太少,遲遲無法下筆。

 

現(xiàn)在,機會終于來了。

 

今天,華為開發(fā)者大會2025在東莞正式開幕。在主題演講環(huán)節(jié),華為常務(wù)董事、華為云計算 CEO張平安宣布,基于CloudMatrix384的昇騰AI云服務(wù)已經(jīng)全面上線,提供澎湃算力,供各行各業(yè)客戶使用。

 

在演講中,他還透露了更多的產(chǎn)品細(xì)節(jié),進一步揭開了CloudMatrix384昇騰AI云服務(wù)的神秘面紗。

 

接下來,小棗君就結(jié)合最新信息,給大家做個深入解讀。

 

 

█?CloudMatrix384的核心設(shè)計理念

 

如前面所說,CloudMatrix384是一個超節(jié)點,也是一個AI智算集群。

 

AI智算集群分為兩種模式,一種是Scale Up,另一種是Scale Out。

 

Scale Up是向上擴展(縱向擴展),增加單節(jié)點內(nèi)的GPU/NPU算卡數(shù)量。Scale Out是向外擴展(橫向擴展),增加節(jié)點的數(shù)量。

 

 

擁有16卡以上的Scale Up系統(tǒng),就是超節(jié)點。CloudMatrix384擁有384卡,算是目前超節(jié)點中規(guī)模最大的。

 

那么,CloudMatrix384是不是簡單地把384個卡“綁定”在一起,進行算力的疊加呢?

 

答案當(dāng)然是否定的。

 

CloudMatrix384發(fā)布之后,很多人都只關(guān)心算力的大小,但實際上,這款產(chǎn)品最大的看點,在于它的設(shè)計理念。

 

華為在發(fā)布CloudMatrix384時,反復(fù)強調(diào)了三句話,即:“一切可池化”“一切皆對等”“一切可組合”。

 

這就是CloudMatrix384的核心設(shè)計理念??炊诉@三句話,才能真正看懂這款產(chǎn)品。

 

我先解釋一下這三句話的基本含義:

 

一切可池化,指的是在CloudMatrix384中,所有的資源都在資源池里。這個資源,不僅包括NPU,也包括CPU、內(nèi)存、網(wǎng)絡(luò)。(英偉達(dá)僅實現(xiàn)了GPU池化。)

 

一切皆對等,指的是資源池里的資源不再是主從式關(guān)系,而是對等關(guān)系。傳統(tǒng)的以CPU為中心的計算范式,已經(jīng)轉(zhuǎn)變?yōu)楦咝А⒏`活的CPU與NPU等對等架構(gòu)。

 

一切可組合,則是指CloudMatrix384中池化的資源,可以根據(jù)不同的任務(wù)需求,像搭積木一樣,進行靈活調(diào)配組合。

 

華為認(rèn)為,在人工智能大爆發(fā)的時代,單一類型的計算資源,單一節(jié)點的計算能力、存儲能力,以及配比固定、松散協(xié)同的擴展模式,已經(jīng)難以滿足日益復(fù)雜且快速變化的應(yīng)用部署需求。

 

與其在傳統(tǒng)計算互聯(lián)構(gòu)架上修修補補,不如創(chuàng)建一個新的架構(gòu)。

 

CloudMatrix架構(gòu)將NPU、CPU、內(nèi)存、網(wǎng)卡等所有資源完全解耦,形成可以獨立擴展的資源池,實現(xiàn)“由單算力轉(zhuǎn)向混合算力,由單機轉(zhuǎn)向集群,由傳統(tǒng)應(yīng)用松散分布轉(zhuǎn)向多樣應(yīng)用緊密融合”,是一個真正對等互聯(lián)的超節(jié)點架構(gòu)。

 

 

大家看明白了嗎?我總結(jié)一下:

 

CloudMatrix384,是華為打造的新一代AI云基礎(chǔ)設(shè)施,實現(xiàn)了所有資源的邏輯解耦和對等池化,能夠更好地應(yīng)對不斷增長的AIGC大模型訓(xùn)推任務(wù)需求。它的核心思想,就是用“對等互聯(lián)池化”打造“強整體”,以系統(tǒng)化的思維,應(yīng)對大模型訓(xùn)推帶來的算力挑戰(zhàn)。

 

接下來,我們就根據(jù)具體的計算任務(wù)場景,看看CloudMatrix384是如何實現(xiàn)算力效率提升的。

 

 

█?Scale Up最強超節(jié)點

 

CloudMatrix384是一個擁有384個昇騰NPU的超節(jié)點,通過全新高速網(wǎng)絡(luò)MatrixLink全對等互聯(lián),變身為一臺超級“服務(wù)器”。

 

這臺“超級服務(wù)器”為AI而生,它的架構(gòu)設(shè)計,能夠更好地匹配大模型的訓(xùn)推任務(wù)。

 

我們舉個分布式推理技術(shù)的例子。

 

現(xiàn)在包括DeepSeek在內(nèi)的很多熱門大模型,都采用了MoE(Mixture of Experts,混合專家)架構(gòu)。整個模型,包括了多個專門的子模型(“專家”),存在大量的專家并行(EP,Expert Paralelism)計算。

 

MoE架構(gòu)

 

CloudMatrix384基于華為云分布式QingTian等技術(shù),達(dá)成了一切可池化。它所提供的超強卡間互聯(lián)能力,能夠讓DeepSeek實現(xiàn)“一個專家一張卡”的模式,大幅提升推理任務(wù)的效率。

 

原因如下:

 

AIGC大模型推理過程包括了Prefill(預(yù)填充)和Decode(解碼)兩個階段,大模型推理要實現(xiàn)Prefill階段的"高吞吐"和Decode階段的的"低時延"。

 

Prefill階段和Decode階段

 

DeepSeek有256個固定專家+32個共享專家(288張卡),加上一些冗余卡(應(yīng)對負(fù)載不均衡的情況),一共320張卡,用于Decode。Prefill大概會用到32張卡。加在一起,就是352張卡。

 

CloudMatrix384的384卡可以“一卡一專家”地完美契合這352張卡的計算任務(wù),基于卡間互聯(lián)能力,能夠?qū)崿F(xiàn)all to all(Full mesh)通信。值得注意的是,它不是單純疊卡的“大力出奇跡”,而是通過技術(shù)調(diào)優(yōu)來達(dá)成“高吞吐”和“低時延”的目標(biāo)。

 

我們也可以用更簡單的方式來理解——

 

通過將計算任務(wù)在跨節(jié)點的專家間進行分布式處理,使得單次推理的批量大?。╞atch size)得以大幅增加。更大的批量處理能力可充分釋放并行計算潛力,減少單位計算的調(diào)度開銷,從而實現(xiàn)整體吞吐量的提升。

 

CloudMatrix384的池化算力資源,還可以更靈活地分工完成這些工作。分工肯定會帶來很多溝通成本(通信開銷),而CloudMatrix384的卡間通信能力,能夠hold得住這些成本。再舉一個池化架構(gòu)幫助降低系統(tǒng)時延的例子:

 

大模型推理任務(wù)涉及到了一個KV Cache(鍵值緩存)技術(shù)。Prefill生成KV Cache,Decode使用和更新KV Cache。KV Cache會不斷增長,占用更多顯存。

 

KV Cache

 

前面說了,CloudMatrix384的池化不僅包括算卡,也包括內(nèi)存。它創(chuàng)建的解耦式共享內(nèi)存池(把所有的CPU高速內(nèi)存湊一塊),可以保存KV Cache,讓Prefill和Decode任務(wù)更快速、更均衡地訪問KV Cache,降低系統(tǒng)延遲。

 

根據(jù)上面這些例子,大家可以看出,CloudMatrix384的強大卡間通信能力和池化設(shè)計,是它實現(xiàn)高性能、高效率的關(guān)鍵因素。

 

在這些buff的加持下,CloudMatrix384不僅單節(jié)點算力很高(300Pflops),它的單卡計算和通信效率也非常驚人。CloudMatrix384的節(jié)點內(nèi)互聯(lián)帶寬高達(dá)2.8Tbps,遠(yuǎn)高于英偉達(dá)的1.8Tbps。

 

這里還要補充說明一下:CloudMatrix384的強大卡間通信能力,得益于華為云Matrixlink親和性智能調(diào)度、重構(gòu)網(wǎng)絡(luò)協(xié)議等技術(shù)能力,大幅提升了帶寬,降低了時延。

 

這些技術(shù)創(chuàng)新共同發(fā)揮作用,最終能將整體all to all通信效率提升30%。

 

 

█?Scale Out最大集群

 

我們剛才介紹了CloudMatrix384的Scale Up能力。接下來,我們看看Scale Out。

 

人工智能發(fā)展到現(xiàn)在,已經(jīng)邁入了萬億參數(shù)時代。如此龐大規(guī)模參數(shù)的模型訓(xùn)練,動輒需要萬卡、十萬卡。

 

CloudMatrix384的Scale Out能力同樣很強。將432個CloudMatrix384進行級聯(lián),可以形成一個165888卡(384×432)的超級AI集群,提供10萬PFlops的驚人算力。

 

CloudMatrix384不僅能構(gòu)建超大集群,還能實現(xiàn)極高的線性度。

 

線性度,就是1+1要盡量等于2。通常來說,算卡越多,損耗越多,線性度越差,1+1甚至可能只有1.6甚至1.2(舉例)。

 

線性度

 

CloudMatrix384的萬卡集群線性度可以做到95%以上,性能提升與資源擴展的比例接近1:1。

 

之所以能做到這一點,是因為華為云通過一系列算法和軟件調(diào)優(yōu),很好地解決了通信瓶頸和負(fù)載不均衡等會對線性度造成嚴(yán)重影響的問題。

 

例如,運用多任務(wù)算網(wǎng)存融合負(fù)載均衡算法,協(xié)同調(diào)度,實現(xiàn)全網(wǎng)無阻塞;結(jié)合集群并行調(diào)度等技術(shù),提升資源的使用效率以及開發(fā)者的開發(fā)效率;在算力請求增加或減少時,系統(tǒng)能夠合理分配計算資源,實現(xiàn)節(jié)點內(nèi)(Scale Up)秒級伸縮,節(jié)點間(Scale Out)毫秒級極速彈性。

 

 

█?資源極致優(yōu)化,負(fù)載智能感知

 

前面我們已經(jīng)說過了,CloudMatrix384的所有資源都是池化的。這為資源的優(yōu)化調(diào)度創(chuàng)造了條件。

 

在大模型推理過程中,有些任務(wù)是計算密集型,有些任務(wù)是內(nèi)存(顯存)密集型。通過“一切可組合”,可以實現(xiàn)資源的最佳分配。

 

以前面提到的Prefill(預(yù)填充)和Decode(解碼)兩種任務(wù)為例。前者屬于典型的計算密集型,后者則是內(nèi)存帶寬密集型。

 

CloudMatrix384可以根據(jù)NPU資源情況、業(yè)務(wù)請求數(shù)據(jù)等多因子,估算負(fù)載的態(tài)勢,并結(jié)合新的編排模型,實現(xiàn)Prefill/Decode按比例組合,以及Prefill/Decode單獨擴縮容。這提升了計算資源分配的合理性,減少了資源閑置,節(jié)約了成本。

 

CloudMatrix384還支持訓(xùn)推算力一體部署,比如白天推理,晚上訓(xùn)練。訓(xùn)推的算力可以按卡靈活分配,幫助客戶最優(yōu)使用資源。

 

這邊要提一下CloudMatrix384的“40天長穩(wěn)訓(xùn)練、10分鐘快速恢復(fù)”能力。

 

大家都知道,AI大模型訓(xùn)練經(jīng)常會出錯中斷。中斷后,需要時間進行恢復(fù)。這不僅拉長的訓(xùn)練周期,也增加了大量的訓(xùn)練成本。

 

CloudMatrix384借助昇騰云腦,實現(xiàn)了全棧故障感知、診斷與快速自動恢復(fù)。在快速恢復(fù)方面,CloudMatrix384配合“三層快恢技術(shù)”,可以實現(xiàn)萬卡集群故障10分鐘快速恢復(fù)。

 

 

█?最后的話

 

前不久,華為任正非在接受人民日報采訪的時候,說了這么一句話:

 

“我們單芯片還是落后美國一代,我們用數(shù)學(xué)補物理、非摩爾補摩爾,用群計算補單芯片,在結(jié)果上也能達(dá)到實用狀況。”

 

這句話,不正是指的CloudMatrix384超節(jié)點嗎?

 

任老爺子還是很坦誠的,華為昇騰芯片的單芯片算力確實不如英偉達(dá)的最新競品,而且,這個差距也不是短時間內(nèi)能夠彌補的。

 

但是,“單打獨斗”不行,可以“抱團”啊。正所謂“團結(jié)就是力量”,通過對等互聯(lián)池化,在底層架構(gòu)上進行創(chuàng)新,也可以實現(xiàn)計算效率的提升,獲得競爭優(yōu)勢。

 

對于全球AI產(chǎn)業(yè)來說,摩爾定律逐漸放緩,芯片工藝制程越來越難提升,與其在單點算力上抓耳撓腮,不如學(xué)習(xí)一下華為,重構(gòu)計算互聯(lián)架構(gòu),才能更好地適應(yīng)新時代的需求,實現(xiàn)真正的系統(tǒng)最優(yōu)。

 

目前,CloudMatrix384昇騰AI云服務(wù)已經(jīng)在蕪湖、貴安、烏蘭察布、和林格爾等地的華為云數(shù)據(jù)中心規(guī)模上線。

 

新浪基于CloudMatrix384昇騰AI云服務(wù),為“智慧小浪”智能服務(wù)體系構(gòu)建了統(tǒng)一的推理平臺,推理的交付效率提升超過50%,模型上線速度成倍加快。通過軟硬協(xié)同調(diào)優(yōu),NPU利用率提升超過40%,讓每一份資源都得到更高效的使用。

 

硅基流動在CloudMatrix384昇騰AI云服務(wù)上部署DeepSeek-R1時,采納了大規(guī)模專家并行方案,通過多專家負(fù)載均衡和極致通信優(yōu)化,實現(xiàn)高吞吐及更高性能,大幅提升了用戶體驗。

 

總而言之,希望CloudMatrix384能走出一條屬于自己的特色發(fā)展之路,也希望國內(nèi)AI產(chǎn)業(yè)能帶來更多類似的創(chuàng)新產(chǎn)品。

 

日積月累,我們一定能夠?qū)崿F(xiàn)彎道超車,打破壟斷,真正在國際舞臺上與巨頭們同臺競技,甚至引領(lǐng)全球AI發(fā)展。

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

通信行業(yè)知名新媒體鮮棗課堂創(chuàng)始人,通信行業(yè)資深專家、行業(yè)分析師、自媒體作者,《智聯(lián)天下:移動通信改變中國》叢書作者。通信行業(yè)13年工作經(jīng)驗,曾長期任職于中興通訊股份有限公司,從事2/3/4G及5G相關(guān)技術(shù)領(lǐng)域方面的研究,曾擔(dān)任中興通訊核心網(wǎng)產(chǎn)品線產(chǎn)品經(jīng)理、能力提升總監(jiān)、中興通訊學(xué)院二級講師、中興通訊高級主任工程師,擁有豐富的行業(yè)經(jīng)驗和積累。