Deepseek一系列大模型的發(fā)布,大家回過頭來看發(fā)現(xiàn)昂貴的GPU突然沒有那么香了。大模型的訓練算力的提升不一定要瘋狂的堆積英偉達的GPU,可以通過優(yōu)化模型算法,提高GPU運算效率?;蛘唛_發(fā)專用領(lǐng)域的ASIC芯片,似乎也成了不少公司新的策略。從英偉達近段時間的股價也能看出,想靠買高價鏟子,收割互聯(lián)網(wǎng)大廠的神話似乎不可持續(xù)了。
比較下ASIC?芯片和GPU在技術(shù)特性、市場趨勢、典型應用及未來展望四個維度的差異
一、技術(shù)特性:專用化與通用性的分水嶺
ASIC?的核心優(yōu)勢
ASIC(Application Specific Integrated Circuit,專用集成電路)的設(shè)計理念是為特定任務量身定制,例如比特幣挖礦的?SHA-256?算法、AI?推理的矩陣運算等。這種?“量體裁衣”?的特性使其在能效比(單位功耗算力)和成本效率上遠超?GPU。
能效比:谷歌TPU v5e TPU(Tensor Processing Unit,張量處理單元)的能效比是英偉達H100 的 3 倍,適合數(shù)據(jù)中心大規(guī)模部署。
成本效率:AWS的Trainium 2 在推理任務中性價比比 H100 高 30%-40%,谷歌的TPUv5、亞馬遜的 Trainium2 單位算力成本僅為英偉達 H100 的 70% 和 60%。
GPU?的核心優(yōu)勢
GPU通用性使其成為復雜計算任務的?“瑞士軍刀”,尤其在需要靈活性的場景中。
訓練任務:英偉達?H100?的?FP64?浮點性能是?ASIC?的?10?倍以上,支持萬億參數(shù)大模型訓練。
軟件生態(tài):CUDA?平臺擁有超過?400?萬開發(fā)者,支持?PyTorch、TensorFlow?等主流框架,而?ASIC?需定制工具鏈(如谷歌的?XLA),開發(fā)門檻高。ASIC?靈活性差,功能固定,算法改變就需重新設(shè)計,開發(fā)難度大,軟件生態(tài)單一(硬件和軟件工具套件都需重新開發(fā)和適應,各家還不通用)。
通俗解釋CPU和GPU的區(qū)別:
CPU和GPU都是通用芯片,可以完成多種任務。CPU是全能型選手,單核主頻高,啥都能干,所以經(jīng)常被拿來做主處理器。
GPU,本來是用來做圖形處理(顯卡)的。它的內(nèi)核數(shù)量特別多(大幾千個),適合做并行計算,也就是擅長同時做大量的簡單計算任務(圖形處理,就是同時處理大量的像素計算。)AI計算和圖形計算一樣,也是典型的并行計算型任務。AI計算中包括大量并行的矩陣相乘、卷積、循環(huán)層、梯度運算等任務,所以,特別適合GPU去完成。
備注:CPU和GPU可以重新編寫軟件代碼,但是ASIC是開發(fā)類似的verilog綜合和燒寫比特流才能確定芯片的功能的為硬件實現(xiàn)方案,相對GPU和CPU更加定制化,所以ASIC的驗證非常重要。
二、市場趨勢:ASIC?在特定領(lǐng)域崛起,GPU?主導核心市場
ASIC?的增長動能
AI?推理:隨著算法框架收斂(如?Transformer),ASIC?在端側(cè)?AI(如自動駕駛、智能家居)滲透率快速提升。預計?2028?年數(shù)據(jù)中心?ASIC?市場規(guī)模將達?429?億美元,復合增長率?45.4%。
云廠商自研:谷歌、亞馬遜、微軟等通過自研?ASIC(如?TPU、Trainium、Maia)優(yōu)化內(nèi)部工作負載,降低對英偉達的依賴。
GPU?的市場壁壘
訓練市場:英偉達占據(jù)?AI?訓練市場?90%?以上份額,其?Blackwell?架構(gòu)支持?1.8?萬億參數(shù)模型訓練,且?NVLink 6?技術(shù)實現(xiàn)?72?卡集群無縫互聯(lián)。
生態(tài)護城河:CUDA?生態(tài)系統(tǒng)的成熟度(如?TensorRT?推理優(yōu)化、Megatron?分布式訓練)難以被替代,企業(yè)遷移成本極高。
三、典型應用:ASIC 與 GPU 的主戰(zhàn)場
領(lǐng)域 | ASIC?代表案例 | GPU?代表案例 |
AI?推理 | ? ? 谷歌?TPU v5e? ? ? ? ? ? ? ?(5?萬卡集群) | 英偉達?H100
(支持多模態(tài)模型推理) |
自動駕駛 | ? ?特斯拉?FSD?芯片?? ? ? ? ? ? ? (能效比優(yōu)于Orin) | 英偉達?Thor
(支持端到端大模型) |
加密貨幣 | 比特大陸?Antminer?(SHA-256?效率提升100?倍) | AMD Radeon
(靈活支持算法切換) |
科學計算 | 博通定制加速器
用于量子模擬 |
英偉達?Grace Blackwell
(超算領(lǐng)域) |
中國大陸本土GPU 制造能力增強。近年來,中國國內(nèi)的許多GPU企業(yè)開始嶄露頭角。通過持續(xù)的投入和努力,國產(chǎn)GPU在性能、功能和應用領(lǐng)域等方面都有了提升,逐漸贏得了市場的認可和用戶的信任。國產(chǎn)GPU不僅在傳統(tǒng)圖形處理領(lǐng)域取得了進展,也能夠在人工智能、高性能計算等新興領(lǐng)域展現(xiàn)出一定的競爭力。
主要廠商包括景嘉微、寒武紀、海光信息、天數(shù)智芯等。
國內(nèi)GPU產(chǎn)品統(tǒng)計
企業(yè)名稱 | 主要GPU產(chǎn)品類型 | 上市進度 |
景嘉微 | JM5系列、JM7系列、JM9系列GPU、景宏系列 | 已上市(A股) |
寒武紀 | 思元270、思元290、思元370AI芯片 | 已上市(A股) |
海光信息 | 海光DCU(GPGPU) | 已上市(A股) |
龍芯中科 | 9A1000 GPU(入門級顯卡,用于圖形處理和AI推理) | 已上市(科創(chuàng)板) |
壁仞科技 | BR100、BR104 | IPO輔導備案登記中 |
原科技 | S60、云燧T20等AI加速卡 | IPO輔導備案登記中 |
摩爾線程 | MTT S系列顯卡、MTT系列GPU芯片 | A股上市輔導中 |
天數(shù)智芯 | 天垓100、智鎧100等 | 未上市 |
中微電 | 南風一號、南風二號 | 未上市 |
瀚博半導體 | SV102 AI推理芯片、SG100 GPU等 | 未上市 |
芯動科技 | 風華1號、風華2號GPU等 | 未上市 |
沐曦集成 | MXN系列GPU(曦思,用于AI推理) MXC系列GPU(曦云,用于AI訓練及通用計算) MXG系列GPU(曦彩,用于圖形渲染) |
未上市 |
登臨科技 | Goldwasser(GPGPU) | 未上市 |
四、未來展望:共生與融合
短期(1-3?年)
ASIC:在推理、邊緣計算、特定行業(yè)(如金融風控、醫(yī)療影像)快速滲透,云廠商自研?ASIC?占比提升至?30%。
GPU:繼續(xù)主導訓練市場,Blackwell?架構(gòu)推動超算和?AI?融合(如氣候模擬、新藥研發(fā))。
長期(5?年以上)
技術(shù)融合:英偉達推出?Grace CPU+Blackwell GPU?的超級芯片,而博通開發(fā)支持動態(tài)重構(gòu)的?ASIC,兩者邊界趨于模糊。
ASIC?和?GPU?的競爭本質(zhì)是?“效率”?與?“靈活性”?的權(quán)衡?。ASIC?在特定場景的優(yōu)勢無法撼動?GPU?的生態(tài)壁壘,而?GPU?的通用性使其在復雜任務中難以被替代。未來,兩者將通過混合架構(gòu)(如?GPU+ASIC?加速卡)和異構(gòu)計算(如?CUDA?與定制指令集協(xié)同)實現(xiàn)最優(yōu)資源配置。對于企業(yè)而言,選擇?ASIC?需滿足三個條件:任務明確、規(guī)模足夠大、算法穩(wěn)定,否則?GPU?仍是更優(yōu)解。
結(jié)論:
ASIC?芯片與?GPU?的關(guān)系并非簡單的替代,而是長期共存、互補發(fā)展的格局。