為了向人工智能(AI)初創(chuàng)公司OpenAI的前沿研究提供支持,微軟三年前為OpenAI打造了一臺由數萬個A100 GPU組成的大型AI超級計算機,成本或超過數億美元。微軟還在60多個數據中心總共部署了幾十萬個推理GPU。
據微軟Azure云業(yè)務的高管透露,爆火的OpenAI聊天機器人ChatGPT正是由這個AI超級計算機提供支持。當前微軟正在打造更大、更復雜的超級計算機,為新模型訓練和運行提供支持。
微軟還在本周一宣布基于NVIDIA最新旗艦芯片H100 GPU和NVIDIA Quantum-2 InfiniBand網絡互連技術,推出Azure最強大、可大規(guī)模擴展的AI虛擬機系列,以顯著加速AI模型的開發(fā)。
微軟對AI基礎設施的芯片及前沿技術布局,對于應對大模型與生成式AI應用熱潮、為更大規(guī)模的模型訓練與部署提供算力支撐頗具參考價值。
ChatGPT成功背后的算力功臣:成本或超數億美元
微軟在2019年向OpenAI投資10億美元時,同意為OpenAI建造一臺大型頂尖超級計算機。當時,微軟并不確定在其Azure云服務中構建這么大的東西,會不會對Azure本身造成影響。
OpenAI試圖訓練更多需要學習海量數據、擁有超大參數規(guī)模的AI模型,需要長期訪問強大的云計算服務。為了應對這一挑戰(zhàn),微軟必須想方設法將數萬個NVIDIA A100 GPU串在一起,并改變其在機架上放置服務器的方式,以防止斷電。
負責云計算和人工智能的微軟執(zhí)行副總裁Scott Guthrie不愿透露該項目的具體成本,但表示“可能大于”數億美元。
訓練大型AI模型需要在一個地方連接大量連接的GPU,就像微軟組裝的AI超級計算機一樣。
據微軟Azure AI基礎設施總經理Nidhi Chappell介紹,微軟構建了一個可在非常大的范圍內運行且可靠的系統(tǒng)架構,這就是讓ChatGPT成為可能的原因。OpenAI總裁兼聯(lián)合創(chuàng)始人說,與Azure共同設計超級計算機對于擴展苛刻的AI訓練需求至關重要,使得OpenAI能在ChatGPT等系統(tǒng)上開展研究和調整工作。
現(xiàn)在,微軟使用它為OpenAI構建的同一組資源來訓練和運行自己的大型AI模型,包括上個月發(fā)布的新版Bing搜索機器人。
微軟還將系統(tǒng)出售給其他客戶,并已經在開發(fā)下一代AI超級計算機,這是它與OpenAI擴大交易、追加數十億美元投資的一部分。
值得注意的是,AI超級計算機雖然是專為OpenAI打造的,但微軟并沒有把它設計成只能供一家企業(yè)使用的定制化設施。
“我們并沒有將它們構建成定制的東西——它最初是作為定制的東西,但我們總是以一種通用化的方式來構建它,這樣任何想要訓練大型語言模型的人都可以利用同樣的改進?!盙uthrie在接受采訪時說,“這確實幫助我們成為更廣泛的AI云?!?/p>
除此之外,微軟還部署了用于推理的GPU,這些處理器共有數十萬個,分布在其60多個數據中心區(qū)域。
H100 GPU+先進網絡互連為生成式AI做好準備
微軟周一宣布推出Azure最強大、可大規(guī)模擴展的AI虛擬機系列ND H100 v5 VM,支持從8到數千個NVIDIA H100 GPU,這些GPU通過NVIDIA Quantum-2 InfiniBand網絡互連,能夠顯著提高AI模型計算速度。一些創(chuàng)新技術包括:
生成式AI應用正在迅速發(fā)展,微軟對自己的AI基礎設施非常有信心。微軟Azure HPC+AI首席產品經理Matt Vegas說,大規(guī)模AI內置于Azure的DNA里,微軟最初投資Turing等大型語言模型研究,并實現(xiàn)了在云上構建第一臺AI超級計算機等工程里程碑,為生成式AI成為可能做好了準備。
在AI超級計算機的支撐下,微軟一方面可以通過Azure服務直接為客戶提供訓練模型所需的資源,也可以通過Azure OpenAI服務讓更廣泛的客戶用到大規(guī)模生成式AI模型的能力。也就是說,中小型公司可以通過獲取云服務來解決算力資源不足的問題,不需要進行大量物理硬件或軟件投資。
算力是一場持久仗。新版Bing仍處于預覽階段,微軟逐漸從候補名單中添加更多用戶。Guthrie的團隊每天與大約20名隨時準備修補bug的員工召開會議。該小組的工作是弄清楚如何使更多的計算能力快速上線,以及解決突然出現(xiàn)的問題。
當OpenAI或微軟訓練大型AI模型時,工作是一次性完成的。它分布在所有GPU上,在某些時候,這些單元需要在高吞吐量、低延遲網絡中相互通信和共享工作。
對于AI超級計算機,微軟已確保處理所有芯片之間通信的網絡設備能夠處理該負載,并且它必須開發(fā)能夠充分利用GPU和網絡設備的軟件。微軟已開發(fā)出可訓練具有數萬億參數的模型的軟件。
由于所有機器同時啟動,微軟不得不考慮它們如何放置以及電源的位置。Guthrie打了個比方,如果不做這些權衡,你在數據中心遇到的情況就好比你在廚房同時打開微波爐、烤面包機和真空吸塵器時會遇到的狀況。
Azure全球基礎設施總監(jiān)Alistair Speirs談道,微軟還必須確保它能夠冷卻所有機器和芯片。Guthrie說,微軟將繼續(xù)致力于定制服務器和芯片設計以及優(yōu)化其供應鏈的方法,以盡可能地提高速度、效率和成本。
云服務依賴于數以千計的不同部件和項目,任何一個組件的延遲或供應短缺,都可能導致一切失敗。最近,維修人員不得不應對電纜托盤短缺的問題。這種類似籃子的裝置用來固定從機器上掉下來的電纜。因此他們設計了一種新的電纜橋架,微軟可以自行制造或從某處購買。Guthrie說,他們還研究了如何壓縮全球現(xiàn)有數據中心中盡可能多的服務器,這樣就不必等待新建筑。
結語:正在打造下一代超級計算機
微軟正通過應用十年的超級計算經驗和支持最大的AI訓練工作負載,來應對模型規(guī)模和復雜性呈指數級增長的趨勢,為生成式AI進步奠定基礎。
“現(xiàn)在讓世界驚嘆的模型是構建于我們幾年前開始建造的超級計算機上的。新模型將構建于我們現(xiàn)在正在訓練的新超級計算機上,這臺計算機要大得多,而且會更加復雜?!盙uthrie說。
編譯 | ZeR0
編輯 | 漠影