• 正文
    • 1 電力使用效率PUE
    • 2 算效比CE
    • 3 單位算力成本和單位算力收益
    • 4 總結
  • 相關推薦
申請入駐 產(chǎn)業(yè)圖譜

智算中心僅關注PUE夠嗎?

2024/10/30
1378
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

 

隨著大模型的流行,智算中心建設如火如荼。也因此,經(jīng)常在公開報道中看到,某某智算中心PUE如何的低,然后非常綠色環(huán)保,等等。

本文探討這樣一個話題:智算中心僅關注PUE夠嗎?我們理解,應該是不夠。

PUE = 總能耗/IT設備能耗,這里我們指出PUE指標存在的兩個問題:

在PUE指標的指導下,能效優(yōu)化通常是優(yōu)化除IT設備之外的制冷、配電等外圍設備的能耗(能耗的小頭,PUE值小數(shù)點后的0.xx),反而沒有關注IT設備本身的能耗(能耗的大頭,PUE值小數(shù)點前的1.00)。制冷等外圍設備的能耗占比小,所能優(yōu)化的也就有限;而IT設備自身的能耗優(yōu)化,才是能耗優(yōu)化的關鍵之所在。但在智算中心的能耗優(yōu)化方案里,IT設備的能耗優(yōu)化(需要靠芯片服務器設計優(yōu)化)并沒有被關注。

并且,如果增大IT設備的能耗(負優(yōu)化),PUE是下降的。而反過來,如果優(yōu)化IT設備的能耗(正優(yōu)化),反而會引起PUE的上升。PUE此刻成為了一個反向的指標。

那么,為了更全面的評價智算中心的能力和價值,除了PUE,我們還應關注哪些指標呢?

1 電力使用效率PUE

1.1 PUE的概念

PUE,Power Usage Effectiveness,電力使用效率,是評價算力中心能源效率的指標,也是算力中心最關鍵的一個指標。

PUE = 總能耗/IT設備能耗,其中算力中心總能耗包括了IT設備的能耗,以及制冷、配電等系統(tǒng)的能耗。PUE值必然大于1,越接近1表明非IT設備耗能越少,即能效水平越好。

1.2 僅考慮PUE,存在的問題

如果把服務器硬件和網(wǎng)絡設備當做一個確定的不再優(yōu)化的設備(黑盒),那么關注PUE指標基本上足夠代表智算中心的能效水平。但如果服務器和網(wǎng)絡設備可以持續(xù)迭代優(yōu)化,那么PUE就存在如下一些問題了:

在PUE指標的指導下,能效優(yōu)化通常是優(yōu)化除IT設備之外的制冷、配電等外圍設備的能耗(能耗的小頭,PUE值小數(shù)點后的0.xx),反而沒有關注IT設備本身的能耗(能耗的大頭,PUE值小數(shù)點前的1.00)。制冷等外圍設備的能耗占比小,所能優(yōu)化的也就有限;而IT設備自身的能耗優(yōu)化,才是能耗優(yōu)化的關鍵之所在。但在智算中心的能耗優(yōu)化方案里,這里并沒有被關注。

并且,如果增大IT設備的能耗(負優(yōu)化),PUE是下降的。而反過來,如果優(yōu)化IT設備的能耗(正優(yōu)化),反而會引起PUE的上升。PUE此刻成為了一個反向的指標。

2 算效比CE

2.1 CE的概念

CE,Computational Efficiency,算效比。定義為算力中心算力與IT及網(wǎng)絡設備功耗的比值,即“計算相關設備的每瓦功耗所產(chǎn)生的算力”(單位:FLOPS/W)。

當然了,如果站在算力中心的角度,算力中心的CE,應表示為算力中心總算力及算力中心總能耗(既包括IT及網(wǎng)絡設備的功耗,還包括制冷、配電,以及其他外圍設備的功耗)的比值。

2.2 考慮PUE+CE,仍存在的問題

考慮了PUE,也考慮了CE,仍然不夠完善,仍然存在如下一些問題。接下來我們詳細展開來說。

2.2.1 芯片的算力使用率問題

計算節(jié)點的標稱算力和實際可使用算力,差距可能很大,也即算力使用率的問題:

第一,業(yè)務算法和芯片算子/指令的匹配度。AI對算力的需求強勁,也因此出現(xiàn)了很多專用的AI處理器,如谷歌TPU、AWS的Trainium/Inferentia等,來針對AI算法進行加速。但AI大模型算法更新迭代較快,因此這些芯片對新算法的適配,相對GPU來說,都不夠好。也因此,其標稱的算力,在實際的使用過程中,是大打折扣的。

第二,芯片微架構、工具鏈和框架本身的成熟度問題。如果開發(fā)的芯片不夠好,標稱的算力只是直面數(shù)據(jù),和實際的業(yè)務場景嚴重脫節(jié),導致非常難以使用。如果給客戶提供的工具鏈和開發(fā)框架不夠成熟,則無法開發(fā)出高效的業(yè)務軟件,并且工具鏈軟件映射效率低,進而導致硬件的性能無從發(fā)揮。

第三,軟件運行和處理器處理流程的匹配度。軟件的性能優(yōu)化是一個非常有價值的工作,這也意味著在一個平臺上性能非常好的芯片,即使移植到另一個性能近似的芯片上,性能很可能會大幅下降。需要針對新的平臺,從軟件架構實現(xiàn)、工具鏈和編譯等方面重新優(yōu)化。

其他問題等。

2.2.2 算力設備的利用率問題

算力設備的利用率問題,主要體現(xiàn)在:

首先,芯片及硬件平臺的生態(tài)不夠壯大,支持的業(yè)務場景較少。從而導致能夠適配的工作任務較少。

第二,對業(yè)務發(fā)展太過樂觀,建設了規(guī)模較大(相對)的算力中心,和實際的業(yè)務量不匹配。

第三,市場和業(yè)務拓展不利。導致計算任務不夠飽滿,從而導致大量計算節(jié)點閑置。

2.2.3 不同類型算力的價值區(qū)別

即使同等的算力,不同類型的處理器,其算力價值千差萬別:

同樣1TFLOPS的算力,CPU的算力價值肯定高于GPU,而GPU的算力價值又高于專用的AI處理器。

CPU,可以應用在幾乎所有客戶的所有計算場景,以及可以支撐未來非常長期的演進迭代(如果性能足夠的話)。但在大模型時代,相比GPU的算力來說,CPU算力太小,幾乎可以忽略。

GPU是通用的并行加速計算平臺。一方面,GPU可以用在并行計算業(yè)務場景的性能加速;另一方面,其通用可編程特性,使得GPU可以適配非常多的計算場景。

而專用處理器DSA,因為其專用性,能適配的場景有限,并且能適配的業(yè)務迭代有限。因此,其算力的價值也就相應的打了折扣。

此外,即使同樣屬性的算力,不同廠家不同架構的算力價值,也是差別巨大。比如,和其他廠家的同等算力相比,肯定是NVIDIA GPU的算力價值更大。因為NVIDIA GPU具有生態(tài)成熟、開發(fā)門檻低,以及適配非常多的業(yè)務場景等多方面的優(yōu)勢。

3 單位算力成本和單位算力收益

從公司運營的角度看,關心的是投入產(chǎn)出比。但投入產(chǎn)出,是靠公司的產(chǎn)品做媒介,來形成關聯(lián)的。智算中心的產(chǎn)品即為算力,需要通過算力,來考慮投入的成本以及帶來的收益。與此同時,也以算力成本和算力收益作為優(yōu)化的大方向、大目標。

3.1 GPU算力和AI專用算力的能效和價值區(qū)別

GPU算力,相比AI處理器,具有更多的通用可編程能力,可以覆蓋相對更多的場景以及算法,也因為能適配更多的業(yè)務和算法迭代,因此具有更長的生命周期。缺點在于,GPU計算相對專用算力,仍不夠高效,并且目前市場上NVIDIA GPU的價格非常昂貴。

而AI處理器,通常具有更高的算力,以及更優(yōu)的算效比。單卡價格也比NVIDIA GPU更便宜,如果平均到單位算力價格,則價格優(yōu)勢更加顯著。但AI處理器比較專用,對場景的適配性要差一些,其實際的算力利用率較低,同時較難適配目前AI大模型算法的快速迭代,從而導致生命周期較短。

GPU算力和AI專用算力,是大模型時代最核心的兩類算力。如何平衡和兼顧?既要GPU算力的靈活可編程性、更多的場景覆蓋,以及更長的生命周期,還要專用AI算力的高效和低成本,是智算中心需要考慮的重要問題。

3.2 CPU的算力利用應該加強

從計算架構上來說:

所謂的通算,其實就是基于CPU的同構計算;

所謂的智算,其實就是基于CPU+GPU、CPU+AI處理器的(單)異構計算;

所謂的超算,其實就是CPU+GPU/AI處理器+高性能網(wǎng)絡(除了底層高性能網(wǎng)絡,可能還存在一些上層一致性協(xié)議等)+高性能存儲。

所有的計算,其實是圍繞著CPU展開的,GPU、AI處理器、高性能網(wǎng)絡、高性能存儲等是作為外圍組件的方式存在,統(tǒng)籌是在CPU。

目前,在智算中心,CPU算力通常處于完全被忽略的狀態(tài)。雖然跟GPU、AI專用處理器相比,CPU的算力差距巨大。但實際上,CPU算力的使用和價值發(fā)揮,是決定智算中心算力價值提升的關鍵。

智算中心需要給客戶提供算力服務,同時不僅僅是智算服務,還應是包含通算、超算、網(wǎng)絡、存儲、安全以及更上層的平臺層服務(PaaS)以及場景和行業(yè)解決方案。而這些復雜而精細化的算力服務,需要通過運行于CPU的軟件來整合。

也因此,從底層來看,就是需要增強對CPU的算力利用。

4 總結

Q:上面的指標沒有提到總量,為什么沒有關注總量?

A:主要在于,總量是一個變量。關注了上述這些指標,并且得到優(yōu)化,做到了行業(yè)領先,智算中心勢必可以獲得更多的收益,從而也有動力和能力去擴大規(guī)模。反之,如果這些指標落后,智算中心運營不善,最后只能減少規(guī)模。

Q:上面這些指標,就完善了嗎?

A:從技術和業(yè)務發(fā)展的角度,這三個指標一起評價,基本上是完善了。但要站在更高的維度考慮,通常還要考慮兩點:

站在經(jīng)濟發(fā)展的角度,那就需要考慮單位算力所能帶來的最終業(yè)務的經(jīng)濟收益。

還有目前地方政府給智算中心優(yōu)惠政策和資源支持,會更關注智算中心的生態(tài)效益。智算中心是新型基礎設施,政府關注:通過智算中心的牽引,能為當?shù)貛矶嗌傧嚓P企業(yè)落地(AI產(chǎn)業(yè)化);同時通過AI+,能夠推動多少其他相關產(chǎn)業(yè)的發(fā)展(產(chǎn)業(yè)AI化)。

上面兩點,已經(jīng)超出了本文的內(nèi)容范疇,也超出了作者的能力范圍,就不班門弄斧了。

參考文獻?

1.https://baike.baidu.com/item/PUE/8606974,PUE,百度百科

2.https://info.support.huawei.com/info-finder/encyclopedia/zh/%E7%AE%97%E6%95%88%E6%AF%94.html,什么是算效比?

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

公眾號:軟硬件融合;CPU靈活性好但性能較差,ASIC性能極致但靈活性差,魚和熊掌如何兼得,同時兼顧性能和靈活性,我給出的方案是“軟硬件融合”。軟硬件融合不是說要軟硬件緊耦合,相反,是要權衡在不同層次和粒度解耦之后,再更加充分的協(xié)同。