在當(dāng)今這個(gè)被AI重塑的時(shí)代,算力早已成為推動(dòng)創(chuàng)新發(fā)展的核心動(dòng)力。毫不夸張地說(shuō),算力就是生產(chǎn)力,誰(shuí)掌握了強(qiáng)大的算力,誰(shuí)就能在AI賽道上搶占先機(jī),引領(lǐng)未來(lái)科技發(fā)展的潮流。然而,對(duì)于國(guó)內(nèi)的 AI 產(chǎn)業(yè)而言,一場(chǎng)算力危機(jī)正悄然降臨。
2025年4月15日,美國(guó)商務(wù)部宣布對(duì)出口至中國(guó)的英偉達(dá)H20、AMD MI308等AI芯片實(shí)施無(wú)限期出口許可限制。該操作直接戳中行業(yè)痛點(diǎn),讓國(guó)內(nèi)AI產(chǎn)業(yè)陷入“缺芯”困局。
要知道,雖然H20性能僅有英偉達(dá)H100芯片的三分之一,但卻是中國(guó)公司目前合法能買(mǎi)到的,性能最強(qiáng)的AI芯片。如今,這一關(guān)鍵來(lái)源被美國(guó)無(wú)情地掐斷,使得國(guó)內(nèi)AI產(chǎn)業(yè)面臨著巨大的挑戰(zhàn)。
阿里、騰訊、字節(jié)跳動(dòng)等科技巨頭首當(dāng)其沖,此前它們訂購(gòu)的160億美元H20芯片,占了英偉達(dá)全球AI芯片銷(xiāo)售額的相當(dāng)比例,如今訂單卻化為泡影。這些科技巨頭在AI領(lǐng)域的布局廣泛,對(duì)算力的需求極為龐大,H20芯片的斷供,無(wú)疑讓它們的AI項(xiàng)目進(jìn)展受到了極大的阻礙。
算力短缺所帶來(lái)的影響,絕不僅僅局限于這些科技巨頭,而是波及到了整個(gè) AI 產(chǎn)業(yè)。更為嚴(yán)峻的是,算力短缺還可能讓我們?cè)谌?AI 競(jìng)爭(zhēng)的賽道上被遠(yuǎn)遠(yuǎn)甩開(kāi)。
不過(guò)好消息也來(lái)了!外媒爆料,多位消息人士證實(shí):華為計(jì)劃下個(gè)月就開(kāi)始向國(guó)內(nèi)客戶(hù)大規(guī)模出貨昇騰910C,部分產(chǎn)品甚至已經(jīng)悄然發(fā)貨。更重磅的是,華為預(yù)計(jì)在2025年下半年正式推出下一代AI芯片——昇騰920,并且今年下半年就將開(kāi)啟量產(chǎn)。
從外媒報(bào)道的知情人士?jī)?nèi)容看,昇騰910C采用了中芯國(guó)際的7nm工藝制造,通過(guò)先進(jìn)的chiplets雙芯片整合封裝技術(shù),將兩顆昇騰910B處理器巧妙地集成到一個(gè)封裝里 ,實(shí)現(xiàn)了算力的跨越式突破。這種創(chuàng)新的設(shè)計(jì),不僅突破了單芯片物理限制,還將昇騰910B的256個(gè)AICore人工智能核心擴(kuò)展至512個(gè),使得單卡FP16運(yùn)算性能躍升至640 TFLOPS,較英偉達(dá)H100提升20%,達(dá)到H200性能的80%,計(jì)算能力和內(nèi)存容量相對(duì)于910B提升了一倍。
不僅如此,昇騰910C在推理任務(wù)中的表現(xiàn)也十分出色,性能達(dá)到英偉達(dá)H100的60%-80%,能夠高效地處理各種復(fù)雜的AI任務(wù)。而且,它還對(duì)各種AI工作負(fù)載數(shù)據(jù)支持更好,無(wú)論是深度學(xué)習(xí)、自然語(yǔ)言處理,還是計(jì)算機(jī)視覺(jué)等領(lǐng)域,都能發(fā)揮出強(qiáng)大的算力優(yōu)勢(shì),為AI應(yīng)用的開(kāi)發(fā)和部署提供了堅(jiān)實(shí)的硬件基礎(chǔ)。
在功耗控制方面,昇騰910C同樣延續(xù)了華為的技術(shù)優(yōu)勢(shì)。在310瓦功耗條件下,其算力密度較H100提升40%,較H200降低25%。這意味著,采用該芯片的數(shù)據(jù)中心在同等算力需求下,能耗成本可縮減30%以上,既能滿(mǎn)足大規(guī)模AI計(jì)算的需求,又能符合全球碳中和戰(zhàn)略。
更值得一提的是,昇騰910C的Scale Out擴(kuò)展帶寬已與英偉達(dá)最新GB200持平,徹底突破了國(guó)產(chǎn)芯片集群互聯(lián)的技術(shù)瓶頸。
從成本角度來(lái)看,昇騰910C也展現(xiàn)出了卓越的性?xún)r(jià)比。當(dāng)前單顆售價(jià)約2萬(wàn)元,僅為英偉達(dá)H100市場(chǎng)價(jià)的20%,在性能大幅提升的同時(shí),成本卻大幅降低,這無(wú)疑將大大降低國(guó)內(nèi)AI企業(yè)的研發(fā)和運(yùn)營(yíng)成本,提高它們?cè)谑袌?chǎng)中的競(jìng)爭(zhēng)力。
在華為昇騰910C即將大規(guī)模出貨的利好消息之后,一個(gè)更加振奮人心的消息傳來(lái):華為預(yù)計(jì)在2025年下半年正式推出下一代AI芯片——昇騰920,并且今年下半年就將開(kāi)啟量產(chǎn)。
昇騰920將基于中芯國(guó)際的6nm(N+3 節(jié)點(diǎn))工藝技術(shù)打造,單芯片算力將提供超過(guò)900 TFLOPS的BF16精度算力性能,同時(shí)內(nèi)存將升級(jí)到HBM3,單卡提供4000GB/s的帶寬。與之前的昇騰910C相比,昇騰920針對(duì)Transformer和MoE模型進(jìn)行了進(jìn)一步優(yōu)化,效率提高了30%-40%,整體性能也大幅超越了英偉達(dá)H20(BF16算力為148 TFLOPS)。除此之外,昇騰920支持PCIe5.0及下一代高吞吐互聯(lián)協(xié)議,這將使得昇騰920和其他硬件配合得更默契。
值得一提的是,除了昇騰920,華為還展示了其AI算力集群解決方案CloudMatrix 384(簡(jiǎn)稱(chēng)“CM384”),憑借其顛覆性的系統(tǒng)架構(gòu)設(shè)計(jì)與全棧技術(shù)創(chuàng)新,在多項(xiàng)關(guān)鍵指標(biāo)上實(shí)現(xiàn)對(duì)英偉達(dá)旗艦產(chǎn)品GB200 NVL72的超越。
據(jù)半導(dǎo)體研究機(jī)構(gòu)SemiAnalysis披露,華為CM384基于384顆昇騰芯片構(gòu)建,通過(guò)全互連拓?fù)浼軜?gòu)實(shí)現(xiàn)芯片間高效協(xié)同,可提供高達(dá)300 PFLOPs的密集BF16算力,接近達(dá)到英偉達(dá)GB200 NVL72系統(tǒng)算力的兩倍。此外,CM384在內(nèi)存容量和帶寬方面同樣占據(jù)優(yōu)勢(shì),總內(nèi)存容量超出英偉達(dá)方案3.6倍,內(nèi)存帶寬也達(dá)到2.1倍,為大規(guī)模AI訓(xùn)練和推理提供了更高效的硬件支持。
對(duì)此,SemiAnalysis認(rèn)為,盡管單顆昇騰芯片性能約為英偉達(dá)Blackwell GPU的三分之一,但是華為通過(guò)規(guī)模化系統(tǒng)設(shè)計(jì),成功實(shí)現(xiàn)整體算力躍升,并在超大規(guī)模模型訓(xùn)練、實(shí)時(shí)推理等場(chǎng)景中展現(xiàn)更強(qiáng)競(jìng)爭(zhēng)力。
需要指出的是,華為CM384性能及各項(xiàng)指標(biāo)上的領(lǐng)先,主要憑借的是384顆昇騰芯片數(shù)量上的優(yōu)勢(shì),而英偉達(dá)GB200 NVL72則只有144顆Blackwell GPU,因此華為CM384在整體占用空間和功耗上也將會(huì)更高。
據(jù)相關(guān)數(shù)據(jù)顯示,CM384系統(tǒng)機(jī)柜密度達(dá)到42kW/rack,是英偉達(dá)GB200方案的1.7倍,這對(duì)數(shù)據(jù)中心供電和散熱提出更高要求。
不過(guò),此時(shí)正值美國(guó)進(jìn)一步收緊對(duì)華AI芯片的出口管制之際,華為昇騰920及CM384的推出將有望實(shí)現(xiàn)對(duì)于無(wú)法繼續(xù)對(duì)華出口的英偉達(dá)H20、AMD MI308等AI芯片及相關(guān)AI集群系統(tǒng)的替代,為國(guó)內(nèi)AI產(chǎn)業(yè)的自主發(fā)展提供了有力保障。
據(jù)相關(guān)消息稱(chēng),華為這套完全自主的解決方案已獲得字節(jié)跳動(dòng)、科大訊飛等企業(yè)的批量訂單。某云計(jì)算廠(chǎng)商技術(shù)負(fù)責(zé)人透露,其正在測(cè)試的昇騰920集群在千卡規(guī)模下訓(xùn)練穩(wěn)定性突破28天,基本達(dá)到CUDA生態(tài)的工程化水平。