• 正文
    • ?01革命的開始,CUDA架構(gòu)的誕生
    • ?02英偉達(dá)布局高性能計(jì)算
    • ?03英偉達(dá)全面引領(lǐng)AI時(shí)代
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

從Tesla到Blackwell,英偉達(dá)如何改寫HPC規(guī)則

03/19 09:40
1018
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者:鵬程

明日,英偉達(dá)創(chuàng)始人CEO黃仁勛將迎來重振該公司股價(jià)的重要契機(jī)。在英偉達(dá)年度技術(shù)峰會(huì)GTC上,黃仁勛將闡述他如何帶領(lǐng)英偉達(dá)探索AI下一個(gè)前沿的方向。

據(jù)摩根大通此前預(yù)計(jì),英偉達(dá)將在大會(huì)上推出Blackwell Ultra芯片(GB300),并可能披露Rubin平臺(tái)的部分細(xì)節(jié)。此次大會(huì)還將聚焦AI硬件的全面升級(jí),包括更高性能的GPU、HBM內(nèi)存、更強(qiáng)的散熱和電源管理,以及CPO(共封裝光學(xué))技術(shù)路線圖。

在黃仁勛的演講到來前,我們來看看這些年中英偉達(dá)推出的系列架構(gòu),和他們背后的故事。

1999年底,英偉達(dá)推出了第一款GPU(Graphic Process Unit,圖形處理單元)Geforce 256,將完整的渲染管線集成進(jìn)硬件,提供了不錯(cuò)的加速效果。但這款產(chǎn)品還很難稱之為處理器,因?yàn)樗胁痪邆淙魏?a class="article-link" target="_blank" href="/tag/%E5%8F%AF%E7%BC%96%E7%A8%8B/">可編程能力。2001年隨著DX8引入可編程頂點(diǎn)著色器的概念,英偉達(dá)才在Geforce 3中添加了Vertex Processor,使GPU可以編程了。隨后,越來越多的可編程著色器被DX和OpenGL引入,以滿足渲染開發(fā)者的算法需求。

在GPU設(shè)計(jì)之初,并非針對(duì)深度學(xué)習(xí),而是圖形加速,在英偉達(dá)推出CUDA架構(gòu)之前,GPU并無太強(qiáng)對(duì)深度學(xué)習(xí)運(yùn)算能力的支持。真正用來作為人工智能算力支持的GPU,不是普通的顯卡,而是GPGPU(General-Purpose Computing on Graphics Processing Units)即通用計(jì)算圖形處理器,這是一種用于處理非特定需求(通用類型)計(jì)算目的的算力單元(芯片)。

?01革命的開始,CUDA架構(gòu)的誕生

隨著GPU具備了可編程能力,其用于并行計(jì)算的天賦被發(fā)掘出來。當(dāng)時(shí),很多大學(xué)和研究機(jī)構(gòu)都在嘗試用GPU做一些科學(xué)計(jì)算。

2003年的SIGGRAPH大會(huì)上,許多業(yè)界泰斗級(jí)人物發(fā)表了關(guān)于利用GPU進(jìn)行各種運(yùn)算的設(shè)想和實(shí)驗(yàn)?zāi)P?。SIGGRAPH會(huì)議還特地安排了時(shí)間進(jìn)行GPGPU的研討交流。但當(dāng)時(shí)的開發(fā)者只能利用著色器編程語言開發(fā)程序,必須將計(jì)算資源映射為渲染概念才能使用,非常麻煩。因此亟需一種針對(duì)GPU并行計(jì)算的編程語言。此時(shí),正在斯坦福讀博的Ian Bark看到這一需求,投身到Brook(一套用于并行計(jì)算的編程語言,后被AMD收購)的研發(fā)中,成為GPU并行計(jì)算軟件棧的先行者。2004年,他以實(shí)習(xí)生的身份加入英偉達(dá),并于兩年后開發(fā)出CUDA。

渲染需求變得越來越多樣化,并行計(jì)算業(yè)務(wù)正含苞待放,Tesla G80架構(gòu)正是在這樣的歷史背景下被設(shè)計(jì)出來,成為英偉達(dá)改變自身命運(yùn)的重要轉(zhuǎn)折點(diǎn)。

2006年,英偉達(dá)推出了Tesla架構(gòu)的第一代(G80),開啟了GPU通用計(jì)算探索。Tesla架構(gòu)之前的顯卡也經(jīng)歷了幾代的發(fā)展,但基本上是圖形顯卡。而它采用全新的CUDA架構(gòu),支持使用C語言進(jìn)行GPU編程,可以用于通用數(shù)據(jù)并行計(jì)算。這成為英偉達(dá)改變自身命運(yùn)的重要轉(zhuǎn)折點(diǎn)。

Tesla G80是第一款實(shí)現(xiàn)CUDA架構(gòu)的GPGPU,開啟了一個(gè)并行加速的時(shí)代。G80是有史以來最偉大的GPU變革產(chǎn)物之一,首批產(chǎn)品GeForce 8800 GTX/GTS于2006年11月發(fā)布。之后,英偉達(dá)又在第一代基礎(chǔ)上推出了Tesla架構(gòu)的第二代(GT200),其雙精度的FMA運(yùn)算速度30FMA ops/ clock,提升了8倍多。就在G80-G200這兩代產(chǎn)品上,英偉達(dá)花了大約三年時(shí)間積累了大量的用戶體驗(yàn)反饋,招募了Bill Dally作為首席科學(xué)家,最終推出了Fermi這個(gè)劃時(shí)代的產(chǎn)品,這是第一款帶有L1 Cache、ECC糾錯(cuò),面向超級(jí)計(jì)算機(jī)的架構(gòu),從這一代開始,英偉達(dá)涉足超級(jí)計(jì)算機(jī)的野心開始暴露無遺,在發(fā)布的時(shí)候拉來了多位超級(jí)計(jì)算機(jī)行業(yè)的重要人物站臺(tái)。

2010年,英偉達(dá)公司正式推出了Fermi全新架構(gòu)。這款架構(gòu)不僅僅是一個(gè)簡(jiǎn)單的硬件更新,而是被英偉達(dá)定義為首款專門為計(jì)算任務(wù)而設(shè)計(jì)的GPU。換句話說,英偉達(dá)通過Fermi架構(gòu)重新定義了GPU的概念,旨在加速并行計(jì)算的性能。與此同時(shí),這款架構(gòu)還具備了強(qiáng)大的圖形渲染能力,使其在圖形處理方面同樣表現(xiàn)出色。而GF100是第一款基于Fermi架構(gòu)的GPU,集成32億個(gè)晶體管,專為下一代游戲與通用計(jì)算應(yīng)用程序而優(yōu)化的全新架構(gòu),實(shí)現(xiàn)了所有DirectX 11硬件功能,包括曲面細(xì)分和計(jì)算著色器等。

G80是對(duì)統(tǒng)一圖形與計(jì)算處理器應(yīng)有面貌的最初愿景。隨后的GT200擴(kuò)展了G80的性能與功能。而GF100,這是一個(gè)專為下一代游戲與通用計(jì)算應(yīng)用程序而優(yōu)化的全新架構(gòu)的GPU。Fermi這一代架構(gòu)展現(xiàn)了英偉達(dá)全力押注通用并行計(jì)算的決心。倘若說Tesla G80僅僅是小試身手,那么Fermi則正式吹響了全面進(jìn)軍計(jì)算產(chǎn)業(yè)的號(hào)角。

?02英偉達(dá)布局高性能計(jì)算

之后,英偉達(dá)大致保持了兩年更新一次架構(gòu)的頻率,不斷推陳出新。

2012年,英偉達(dá)推出Kepler架構(gòu)。這是首個(gè)支持超級(jí)計(jì)算和雙精度計(jì)算的GPU架構(gòu)。得益于28nm的先進(jìn)制程技術(shù),Kepler在性能和功耗方面實(shí)現(xiàn)了質(zhì)的提升。Kepler GK110具有2880個(gè)流處理器和高達(dá)288GB/s的帶寬,計(jì)算能力比Fermi架構(gòu)提高3-4倍。Kepler架構(gòu)的出現(xiàn)使GPU開始成為高性能計(jì)算的關(guān)注點(diǎn)。

2014年,英偉達(dá)發(fā)布的Maxwell架構(gòu)是先前Kepler架構(gòu)的升級(jí)版,采用臺(tái)積電28nm工藝制程。彼時(shí)移動(dòng)設(shè)備興起,對(duì)低功耗、高性能GPU需求大增,同時(shí)需要優(yōu)化GPU在不同應(yīng)用場(chǎng)景的適應(yīng)性,Maxwell架構(gòu)應(yīng)運(yùn)而生。首款基于Maxwell架構(gòu)的GPU為GM107,專為筆記本和小型(SFF)PC等功率受限的使用場(chǎng)合而設(shè)計(jì),采用臺(tái)積電28nm工藝制程,芯片尺寸148平方毫米,集成18.7億個(gè)晶體管。針對(duì)流式多處理器采用全新設(shè)計(jì)稱為SMM,GM107核心的每核心效能提升了35%,每瓦功耗比提升了一倍,支持DirectX 12。首款基于GM107GPU的顯卡是GeForce GTX750Ti。

2016年,Pascal架構(gòu)推出,用于接替上一代的Maxwell架構(gòu)?;赑ascal架構(gòu)的GPU使用16nm FinFET工藝、HBM2、NVLink等新技術(shù)。這是首個(gè)為了深度學(xué)習(xí)而設(shè)計(jì)的GPU,支持所有主流的深度學(xué)習(xí)計(jì)算框架。Pascal架構(gòu)核心陣容強(qiáng)大,包括GP100(3840個(gè)CUDA Core和60組SM單元)和GP102(3584個(gè)CUDA Core和28組SM單元)兩大核心。Pascal GP100具有3840個(gè)CUDA核心和732GB/s的顯存帶寬,但功耗只有300W,比Maxwell架構(gòu)提高50%以上。Pascal架構(gòu)剛剛推出之際,深度學(xué)習(xí)正發(fā)展的如火如荼。業(yè)界出現(xiàn)了很多針對(duì)神經(jīng)網(wǎng)絡(luò)的專用加速器,無論在能效和面效上都碾壓GPU,這讓英偉達(dá)倍感壓力。為了應(yīng)對(duì)競(jìng)爭(zhēng),英偉達(dá)一反之前兩年一代架構(gòu)的迭代節(jié)奏,次年就推出了專門針對(duì)神經(jīng)網(wǎng)絡(luò)加速的GPU架構(gòu)Volta。

Volta架構(gòu)引入了Tensor Core(張量核心)專門加速矩陣運(yùn)算,提升深度學(xué)習(xí)計(jì)算效率;支持NVlink 2.0,提高了數(shù)據(jù)傳輸速度,增強(qiáng)了多GPU協(xié)作能力,提升系統(tǒng)整體性能。Volta GV100具有5120個(gè)CUDA 核心和900GB/s的帶寬,加上640個(gè)張量核心,AI計(jì)算能力達(dá)到112 TFLOPS,比Pascal架構(gòu)提高了近3倍。Volta的出現(xiàn)標(biāo)志著AI成為GPU發(fā)展的新方向。緊隨其后,在一年后的2018年,英偉達(dá)發(fā)布了Turing架構(gòu),進(jìn)一步增強(qiáng)了Tensor Core的功能。Turing架構(gòu)不僅延續(xù)了對(duì)浮點(diǎn)運(yùn)算的優(yōu)化,還新增了對(duì)INT8、INT4、甚至是Binary(INT1)等整數(shù)格式的支持。這一舉措不僅使大范圍混合精度訓(xùn)練成為可能,更將GPU的性能吞吐量推向了新的高度,較Pascal GPU提升了驚人的32倍。

此外,Turing架構(gòu)還引入了先進(jìn)的光線追蹤技術(shù),新增了Ray Tracing核心(RT Core)。Turing TU102具有4608個(gè)CUDA核心、576個(gè)張量核心和72個(gè)RT核心,支持GPU光線追蹤,代表了圖形技術(shù)的新突破。2020年,Ampere架構(gòu)的推出再次刷新了人們對(duì)Tensor Core的認(rèn)知。Ampere架構(gòu)新增了對(duì)TF32和BF16兩種數(shù)據(jù)格式的支持,進(jìn)一步提高了深度學(xué)習(xí)訓(xùn)練和推理的效率。

同時(shí),Ampere架構(gòu)引入了對(duì)稀疏矩陣計(jì)算的支持,在處理深度學(xué)習(xí)等現(xiàn)代計(jì)算任務(wù)時(shí),稀疏矩陣是一種常見的數(shù)據(jù)類型,其特點(diǎn)是矩陣中包含大量零值元素。傳統(tǒng)的計(jì)算方法在處理這類數(shù)據(jù)時(shí)往往效率低下,而Ampere架構(gòu)通過專門的稀疏矩陣計(jì)算優(yōu)化,實(shí)現(xiàn)了對(duì)這類數(shù)據(jù)的高效處理,從而大幅提升了計(jì)算效率并降低了能耗。Ampere GA100 GPU具有6912個(gè)CUDA核心、108個(gè)張量核心和hr個(gè)RT核心,比Turing架構(gòu)提高約50%。Ampere架構(gòu)在人工智能、光線追蹤和圖形渲染等方面性能大幅躍升。

?03英偉達(dá)全面引領(lǐng)AI時(shí)代

2016年,黃仁勛親手將第一臺(tái)DGX-1超級(jí)計(jì)算機(jī)送給了OpenAI。而在2022年年底,OpenAI發(fā)布了ChatGPT生成式大語言模型,其驚艷的自然語言處理能力成為深度學(xué)習(xí)發(fā)展歷程中劃時(shí)代的里程碑。而在這波AI革命中,英偉達(dá)作為“賣鏟人”,發(fā)布了H100 GPU,憑借著最新的Hopper架構(gòu),H100成為地表最強(qiáng)并行處理器。

H100是英偉達(dá)第九代數(shù)據(jù)中心GPU,集成了800億個(gè)晶體管,專為大規(guī)模AI和HPC計(jì)算而生。Hopper架構(gòu)標(biāo)志性的變化是新一代流式多處理器的FP8張量核心(Tensor Core),這一創(chuàng)新進(jìn)一步加速了AI訓(xùn)練和推理過程。值得注意的是,Hopper架構(gòu)去除了RT Core,以便為深度學(xué)習(xí)計(jì)算騰出更多空間。此外,Hopper架構(gòu)還引入了Transformer引擎,這使得它在處理如今廣泛應(yīng)用的Transformer模型時(shí)表現(xiàn)出色,進(jìn)一步鞏固了英偉達(dá)在深度學(xué)習(xí)硬件領(lǐng)域的領(lǐng)導(dǎo)地位。

同時(shí),NVIDIA Grace Hopper超級(jí)芯片將NVIDIA Hopper GPU的突破性性能與NVIDIA Grace CPU的多功能性結(jié)合在一起,在單個(gè)超級(jí)芯片中與高帶寬和內(nèi)存一致的NVIDIA NVLink Chip-2-Chip(C2C)互連,并且支持新的NVIDIA NVLink切換系統(tǒng),CPU和GPU、GPU和GPU之間通過NVLink進(jìn)行連接,數(shù)據(jù)的傳輸速率高達(dá)900 GB/s,解決了CPU和GPU之間數(shù)據(jù)的時(shí)延問題,跨機(jī)之間通過PCIe 5.0進(jìn)行連接。

NVIDIA Grace Hopper超級(jí)芯片架構(gòu)是高性能計(jì)算(HPC)和AI工作負(fù)載的第一個(gè)真正的異構(gòu)加速平臺(tái)。2024年,英偉達(dá)推出的Blackwell架構(gòu)為生成式AI帶來了顯著的飛躍。相較于H100 GPU,GB200超級(jí)芯片在處理LLM推理任務(wù)時(shí),性能實(shí)現(xiàn)了高達(dá)30倍的驚人提升,同時(shí)在能耗方面也實(shí)現(xiàn)了高達(dá)25倍的優(yōu)化。其中GB200超級(jí)芯片能夠組合兩個(gè)Blackwell GPU,并與英偉達(dá)的Grace中央處理單元配對(duì),支持NVLink-C2C互聯(lián)。Blackwell還引入了第二代Transformer引擎,增強(qiáng)了對(duì)FP4和FP6精度的兼容性,顯著降低了模型運(yùn)行時(shí)的內(nèi)存占用和帶寬需求。

此外,還引入了第五代NVLink技術(shù),使每個(gè)GPU的帶寬從900 GB/s增加到1800 GB/s。英偉達(dá)的GPU架構(gòu)經(jīng)歷了一系列針對(duì)深度學(xué)習(xí)優(yōu)化的重大創(chuàng)新和升級(jí),每一次進(jìn)步都在推動(dòng)深度學(xué)習(xí)技術(shù)的邊界。這些架構(gòu)的發(fā)展不僅體現(xiàn)了英偉達(dá)在硬件設(shè)計(jì)方面的前瞻性,也為深度學(xué)習(xí)的研究和應(yīng)用提供了強(qiáng)大的計(jì)算支持,促進(jìn)了AI技術(shù)的快速發(fā)展。值得注意的是,去年英偉達(dá)CEO黃仁勛在接受采訪時(shí)表示,英偉達(dá)工程師正在開發(fā)接下來的兩代產(chǎn)品,“將按照一年一代的節(jié)奏完成”。此前,英偉達(dá)按照平均兩年一次的更新頻率升級(jí)GPU架構(gòu),對(duì)產(chǎn)品性能進(jìn)行大幅提升。

明日,英偉達(dá)會(huì)如何刷新人們的想象,令人期待。

英偉達(dá)

英偉達(dá)

NVIDIA(中國大陸譯名:英偉達(dá),港臺(tái)譯名:輝達(dá)),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長(zhǎng)為一家提供全棧計(jì)算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計(jì)算解決方案提供支持。

NVIDIA(中國大陸譯名:英偉達(dá),港臺(tái)譯名:輝達(dá)),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長(zhǎng)為一家提供全棧計(jì)算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計(jì)算解決方案提供支持。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

公眾號(hào):半導(dǎo)體產(chǎn)業(yè)縱橫。立足產(chǎn)業(yè)視角,提供及時(shí)、專業(yè)、深度的前沿洞見、技術(shù)速遞、趨勢(shì)解析,鏈接產(chǎn)業(yè)資源,構(gòu)建IC生態(tài)圈,賦能中國半導(dǎo)體產(chǎn)業(yè),我們一直在路上。