• 正文
    • 什么是DPU?
    • “九死一生”,國產DPU跑出來了嗎?
    • 云脈芯聯:“智能網卡+AI網卡+DPU”三箭齊發(fā),YSA-100芯片迎量產
    • 披荊斬棘的DPU, 正在面臨怎樣的變革?
    • 寫在最后
  • 相關推薦
申請入駐 產業(yè)圖譜

國產DPU跑出來了嗎?

原創(chuàng)
2024/12/19
6657
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

什么是DPU?

相對標準網卡,最初具備加速和卸載功能的網卡被稱為智能網卡,當DPU(數據處理器)的概念出現后,智能網卡和DPU的概念則缺乏一個清晰的定義。以英偉達的DPU BlueField 系列和智能網卡CX系列為例,兩者的區(qū)別主要是BlueField 系列增加了多核的ARM通用CPU 處理單元,用于滿足控制平面的卸載,以此實現基礎設施服務的全卸載和宿主機業(yè)務物理上的安全隔離。

無論是智能網卡還是DPU,都具有一樣的核心功能,主要包含RDMA融合以太網(RoCE)、存儲加速卸載如NVMe-oF、VPC網絡卸載加速、存儲網絡IO虛擬化等。

因此,廣義上的DPU即包含DPU,又包含智能網卡。

“九死一生”,國產DPU跑出來了嗎?

2022年,DPU產業(yè)經歷了一場高開低走的市場變化,伴隨著AMD收購Pensando、微軟收購Fungible等動作,DPU又“熱”了一把,各路創(chuàng)業(yè)英雄不少。

與此同時,資本和行業(yè)界也卷起了一股對DPU創(chuàng)業(yè)的懷疑潮,有媒體甚至發(fā)出了“逃離DPU,因為DPU創(chuàng)業(yè)至少死掉九成”的言論。

站在兩年后的今天,不能說看到DPU產業(yè)跑出來了,但至少逃出了“2022年就出現資金問題”的悲觀預測,也并沒有出現“九死一生”的DPU創(chuàng)業(yè)慘狀。相反地,我們看到國內幾家頭部的DPU廠商已經流片成功,并開始商業(yè)落地。

云脈芯聯:“智能網卡+AI網卡+DPU”三箭齊發(fā),YSA-100芯片迎量產

就在近日,云脈芯聯YSA-100網絡互聯芯片正式對外發(fā)布,同期發(fā)布的還有基于YSA-100這顆芯片底座研發(fā)的三款主力產品——metaScale系列智能網卡、metaConnect系列AI智能網卡和metaVisor系列AI DPU。

根據云脈芯聯創(chuàng)始人/總裁吳吉朋的介紹,YSA-100是國內第一顆擁有400Gbps接入能力的支持RDMA網絡互聯的芯片,而在此基礎上推出的三款產品分別面向不同的用戶市場。

圖片來源:云脈芯聯

  • metaScale系列智能網卡

metaScale是一款面向現代數據中心云場景、AI智算中心高性能網絡和高性能存儲領域打造的智能網卡,可提供優(yōu)異的網絡收發(fā)性能和成熟的平臺兼容性,已適配如英特爾、AMD、海光、飛騰5000C、鯤鵬920和申威等CPU,天數智芯、沐曦MetaX、寒武紀、摩爾線程等GPU,并已成功適配新華三、浪潮、戴爾等主流服務器

  • metaConnect系列AI智能網卡

metaConnect是一款面向AI大模型業(yè)務,針對新型智算中心高性能網絡需求打造的AI智能網卡產品,擁有單口400Gbps RDMA網絡能力,可以有效加速GPU和AI芯片的計算效率,同時具備Lossy網絡傳輸能力,為AI大模型算力集群網絡提供高吞吐完全負載均衡的解決方案。

云脈芯聯方面透露,基于云脈芯聯自主創(chuàng)新的HyperDirect技術和多路徑擁塞控制算法,metaConnect-400系列對比市場同類產品網絡帶寬利用率可整體提升20%。

  • metaVisor系列AI DPU

metaVisor是一款面向大模型業(yè)務,針對智算中心基礎設施網絡管理運維監(jiān)控能力提升需求打造的AI DPU產品,除了支持傳統(tǒng)DPU的云計算租戶VPC網絡卸載和存儲卸載,提供高性能RDMA網絡能力外,還支持自主創(chuàng)新的HyperDirect技術,可有效加速GPU和AI芯片的計算效率。

此外,metaVisor系列AI DPU產品還能夠和云脈芯聯AI智能網卡產品協(xié)同構建端到端的高性能網絡監(jiān)控運維管理能力,為智算中心打造更有競爭力的產品解決方案。

關于用戶側表現和出貨情況,目前基于云脈芯聯YSA-100的產品已經正式量產出貨,并受到了包括兩家頭部互聯網大廠、頭部服務器廠商、智算基礎設施服務商在內的用戶較為廣泛的性能測試肯定,尤其是在RDMA方面的表現。

其中一位頭部互聯網廠商網絡負責人表示:“在端網融合的大趨勢下,網卡性能的提升,能夠顯著簡化網絡部署難度,提升整體網絡性能,而國產網卡的發(fā)力,則能夠很好的幫助國產廠商控制數據中心的總擁有成本(TCO)。在未來訓推一體的大趨勢下,需要智能網卡/DPU產品為網絡基礎設施提供更好的靈活性,能夠更快速的在訓練和推理應用之間,內部使用和對外售賣之間靈活轉換?!?/p>

另外,本土集成商新華三和浪潮信息也帶來了對metaConnect和metaScale的反饋。

新華三集團副總裁、人工智能研究院院長李飛介紹,在新華三4機32卡集群端網協(xié)同測試中,云脈芯聯metaConnect-400S AI NIC產品在400G RDMA網絡的集合通信庫方面的表現已比肩國際一線廠商產品水平,雙方聯創(chuàng)的解決方案目前也已在客戶側部署落地。

浪潮信息網絡研發(fā)部總經理李鵬翀則表示,云脈芯聯metaScale-50、metaScale-200和metaScale-200S目前已順利通過浪潮的供應商引入測試,未來將與浪潮產品一起服務客戶,同時采購的云脈芯聯YSA-100芯片,也將作為浪潮信息自研智能網卡的核心組件推向市場。

披荊斬棘的DPU, 正在面臨怎樣的變革?

DPU產業(yè)正在如火如荼的高速發(fā)展,那么到底是什么在支撐DPU行業(yè)披荊斬棘呢?筆者認為首先是人工智能行業(yè)的發(fā)展在持續(xù)推高市場側的需求,即解決數據中心等基礎設施的“降本增效”難題。具體來講就是將“CPU處理效率低下、GPU處理不了”的數據傳輸工作負載卸載到專用DPU,以提升整個計算系統(tǒng)的效率、降低整體系統(tǒng)的總體擁有成本(TCO)。

早些年,大家談論的更多是CPU處理效率低下情況下DPU的用武之處,但近年來,這個趨勢正在“被轉變”。因為近年來,在數據中心中,GPU服務器的占比越來越高。根據Dell’Oro Group的數據顯示,預計在3-5年后,即2027-2028年前后,GPU服務器的數量將超過CPU服務器的數量。屆時,DPU將更多地被用于解決大型集群中海量GPU協(xié)同工作的問題。

從云脈芯聯此次推出的產品,我們可以看到,metaConnect系列AI智能網卡和metaVisor系列AI DPU就是應這一趨勢推出的產品。

GPU服務器會帶來怎樣的改變呢?前幾年,當我們提到400G、800G覺得好像很遙遠,因為大家常用的還是10G、25G、50G網絡。但是,GPU并行計算一下子把網絡推到了400G以上。

DPU是一個強IO型的芯片,相較通過間接手段來支持網絡IO的CPU而言,DPU的IO帶寬幾乎可以與網絡帶寬等同,例如,網絡支持25G,那么DPU就要支持25G。

所以,當網絡帶寬從主流 10G朝著25G、40G、100G、200G、400G,甚至800G發(fā)展時,原來基于“CPU/NP”和“FPGA+CPU”這兩類硬件架構的DPU,除了在性能上難以為繼以外,在成本和功耗上也存在較大挑戰(zhàn),而結合了ASIC和CPU雙邊優(yōu)勢的“ASIC+CPU”硬件架構將引領產品趨勢。

寫在最后

受到地緣政治等不確定因素的影響,國內必須形成閉環(huán)的產業(yè)鏈才能實現真正自主的發(fā)展,而在AI領域,當前大家把更多的關注放在GPU等核心芯片上,事實上真正國產化低的是高速網卡,所以這也是接下來AI產業(yè)要克服的重點。

好在,近年來越來越多的國產DPU廠商拿出了可商業(yè)化的產品,也在不斷適配國內的CPU、GPU、路由等產品,希望在未來幾年的迭代后,可以真正做到高性能產品的自主可控。

云脈芯聯

云脈芯聯

上海云脈芯聯科技有限公司是一家專注于云數據中心網絡芯片產品研發(fā)與技術創(chuàng)新的高科技創(chuàng)新企業(yè)。公司致力于打造用于大規(guī)模數據中心和云計算基礎設施的網絡互聯芯片,幫助用戶構建端網融合的高性能網絡基礎設施,以應對進入全面數字化和智能化時代的技術挑戰(zhàn)。

上海云脈芯聯科技有限公司是一家專注于云數據中心網絡芯片產品研發(fā)與技術創(chuàng)新的高科技創(chuàng)新企業(yè)。公司致力于打造用于大規(guī)模數據中心和云計算基礎設施的網絡互聯芯片,幫助用戶構建端網融合的高性能網絡基礎設施,以應對進入全面數字化和智能化時代的技術挑戰(zhàn)。收起

查看更多

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄