• 正文
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

蘋(píng)果M1 Ultra再次設(shè)定了行業(yè)新高點(diǎn)

2022/03/14
1265
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作為蘋(píng)果春季“Peek Performance”產(chǎn)品發(fā)布會(huì)的一部分,蘋(píng)果公布了M1系列的第四個(gè)也是最后一款SoC,M1 Ultra。M1 Ultra主要針對(duì)臺(tái)式機(jī)(特別是新款Mac Studio),蘋(píng)果新款SoC在CPU和GPU工作負(fù)載方面再次提升到一個(gè)新高度。蘋(píng)果向業(yè)界拋出了一個(gè)新的曲線(xiàn)球,不僅將兩個(gè)M1 Max拼接到一個(gè)芯片封裝中,而且將這兩個(gè)芯片作為一個(gè)獨(dú)立的單片GPU,標(biāo)志著芯片制造行業(yè)的又一個(gè)第一次。

早在去年秋天蘋(píng)果宣布M1 Pro和強(qiáng)大的M1 Max時(shí),許多人認(rèn)為蘋(píng)果已經(jīng)完成了M1芯片的研發(fā)。畢竟,你怎么能超越一個(gè)432mm2的芯片呢,這已經(jīng)突破了臺(tái)積電N5工藝的制造極限。答案是,蘋(píng)果可以做得更好,或者可以說(shuō)加倍的好。至于該公司最后的M1芯片設(shè)計(jì),即M1 Ultra,蘋(píng)果已將兩個(gè)M1 Max拼接在一個(gè)芯片上,其硬件的所有性能優(yōu)勢(shì)都會(huì)翻倍。

最終的結(jié)果是一個(gè)芯片,毫無(wú)疑問(wèn),是目前為止最有趣的消費(fèi)類(lèi)SoC設(shè)計(jì)之一。M1 Ultra與目前市場(chǎng)上的任何其他消費(fèi)類(lèi)芯片都不太一樣。雖然雙芯片策略對(duì)多線(xiàn)程CPU和GPU工作負(fù)載的好處遠(yuǎn)大于單線(xiàn)程任務(wù)(蘋(píng)果在這個(gè)領(lǐng)域已經(jīng)開(kāi)始落后了),但在這個(gè)過(guò)程中,他們?cè)贕PU方面有了新的突破。通過(guò)使M1 Ultra的兩個(gè)芯片透明地呈現(xiàn)為單個(gè)GPU,蘋(píng)果已經(jīng)啟動(dòng)了一場(chǎng)新的技術(shù)競(jìng)賽,將多芯片GPU用于高端消費(fèi)者和工作站硬件中。

M1 Max + M1 Max = M1 Ultra

新的M1 Ultra的核心不是什么新鮮的東西,我們都知道是M1 Max。具體來(lái)說(shuō),蘋(píng)果在這里使用了兩個(gè)M1 Max,然后將它們連接在一起,形成一個(gè)由1140億個(gè)晶體管組成的巨大混合體。

由于M1 Max在過(guò)去5個(gè)月里一直在發(fā)貨,該芯片的基本架構(gòu)(及其底層模塊)在這一點(diǎn)上是已知的。在這方面,M1 Ultra并沒(méi)有引入任何新的終端用戶(hù)功能,相反,該芯片是通過(guò)在單個(gè)芯片上放置第二個(gè)芯片,將蘋(píng)果的M1架構(gòu)進(jìn)一步擴(kuò)展。

通過(guò)將兩個(gè)M1 Max放進(jìn)單一的封裝,蘋(píng)果幾乎在每種方式上都將他們所掌握的硬件數(shù)量增加了一倍。這意味著有兩倍的CPU內(nèi)核、GPU內(nèi)核、神經(jīng)引擎內(nèi)核、LPDDR5內(nèi)存通道,以及兩倍的外圍設(shè)備I/O。

在CPU方面,這意味著蘋(píng)果現(xiàn)在提供20個(gè)CPU內(nèi)核。包括16個(gè)Firestorm性能核,4個(gè)Icestorm能效核。鑒于M1 Ultra只針對(duì)臺(tái)式機(jī)(與M1 Max不同),能效核的作用并不大,因?yàn)榕_(tái)式機(jī)并不需要那么節(jié)能。然而,正如我們所看到的,它們本身就是相當(dāng)強(qiáng)大的內(nèi)核,并將幫助增加芯片在重度線(xiàn)程情況下的CPU吞吐量。

和蘋(píng)果發(fā)布產(chǎn)品的典型做法一樣,該公司在此沒(méi)有透露時(shí)鐘速度。由于這款芯片主要用于臺(tái)式機(jī),意味著如果他們?cè)敢猓O(píng)果可以把時(shí)鐘速度推得比M1 Max高一點(diǎn),但這樣做也意味著要犧牲最佳的能效點(diǎn)。

在實(shí)踐中,如果M1 Ultra的CPU內(nèi)核時(shí)鐘比M1 Max高得多,多少會(huì)讓人感到驚訝。這對(duì)蘋(píng)果的CPU性能來(lái)說(shuō)是喜憂(yōu)參半的。對(duì)于多線(xiàn)程工作負(fù)載,16個(gè)Firestorm內(nèi)核將提供足夠的吞吐量,在一些性能圖表中名列前茅。但是對(duì)于單線(xiàn)程/輕線(xiàn)程工作負(fù)載,F(xiàn)irestorm已經(jīng)被更新的架構(gòu)所超越,比如英特爾的Colden Cove CPU架構(gòu)。因此,不要指望看到蘋(píng)果在這里恢復(fù)單線(xiàn)程性能的領(lǐng)先優(yōu)勢(shì)。相反,這都是關(guān)于MT,特別是能效問(wèn)題。

同時(shí),M1 Max芯片數(shù)量增加一倍,意味著蘋(píng)果能夠?qū)⑿酒系膬?nèi)存通道數(shù)量增加一倍,從而使其整體內(nèi)存帶寬增加。M1 Max有16個(gè)LPDDR5-6400通道,共408GB/s的內(nèi)存帶寬,而M1 Ultra則將其增加到32個(gè)LPDDR5通道和800GB/s的內(nèi)存帶寬。而與M1 Max一樣,這是通過(guò)將LPDDR5芯片直接焊接到芯片封裝上來(lái)實(shí)現(xiàn)的,M1 Ultra上共有8個(gè)芯片。

加倍的內(nèi)存芯片也讓蘋(píng)果將其硬件中可用的內(nèi)存總量增加了一倍。M1 Max最高為64GB,M1 Ultra最高為128GB。這仍然比真正的高端工作站(如Mac Pro)的內(nèi)存少,但它使蘋(píng)果領(lǐng)先于所有高端PC臺(tái)式機(jī),對(duì)內(nèi)容創(chuàng)作者人群應(yīng)該是足夠的。

正如我們?cè)贛1 Max推出時(shí)看到的那樣,蘋(píng)果已經(jīng)為他們的SoC提供了比CPU內(nèi)核所能消耗的更多的帶寬,所以加倍的帶寬不可能產(chǎn)生太大的影響,而只是確保CPU內(nèi)核能像在M1 Max上那樣得到充分的供給。相反,所有這些額外的內(nèi)存帶寬是為了跟上GPU內(nèi)核數(shù)量的增長(zhǎng)。

這讓我們看到M1 Ultra最有趣的方面,就是GPU。憑借32個(gè)GPU內(nèi)核,M1 Max已經(jīng)創(chuàng)下了單片集成GPU的記錄。而現(xiàn)在,蘋(píng)果已在單個(gè)芯片上增加到64個(gè)GPU內(nèi)核。

與幾十年來(lái)工作站中常見(jiàn)的multi-die/multi-chip類(lèi)型CPU配置不同,multi-chip GPU配置是一個(gè)完全不同的野獸。對(duì)于高端部件來(lái)說(shuō),GPU所消耗的內(nèi)部帶寬,遠(yuǎn)超過(guò)1TB/s,這使得將它們拼接起來(lái)在技術(shù)上一直是個(gè)巨大障礙。因此,在傳統(tǒng)的多GPU系統(tǒng)(如Mac Pro)中,每個(gè)GPU都是作為一個(gè)獨(dú)立的設(shè)備出現(xiàn)在系統(tǒng)中,而由軟件供應(yīng)商來(lái)尋找創(chuàng)新的方法來(lái)一起使用它們。在實(shí)踐中,這意味著讓多個(gè)GPU在不同的任務(wù)上工作,因?yàn)槿狈捯馕吨鼈儾荒苡行У卦谕粋€(gè)圖形任務(wù)上一起工作。

但如果能以某種方式將多個(gè)GPU拼接起來(lái),使其具有驚人的die-to-die的帶寬(足以復(fù)制其內(nèi)部帶寬)那么就可能在一個(gè)任務(wù)中一起使用它們。這使得以一種透明的方式組合多個(gè)GPU成為多GPU設(shè)計(jì)的圣杯。這是多家公司十多年來(lái)一直在研究的問(wèn)題,而蘋(píng)果成為了第一家完成這項(xiàng)任務(wù)的公司,開(kāi)辟了嶄新的領(lǐng)域。

UltraFusion:蘋(píng)果的2.5D芯片封裝方法使這一切成為可能的秘密(蘋(píng)果至今還在保密)是M1 Max在其一個(gè)邊緣有一個(gè)非常高速的接口。這個(gè)接口在芯片interposer的幫助下,可以將兩個(gè)M1 Max芯片連接起來(lái)。

蘋(píng)果將這種封裝架構(gòu)稱(chēng)為UltraFusion,它是業(yè)界2.5D芯片封裝的最新范例。雖然各個(gè)實(shí)施方案的細(xì)節(jié)非常不同,但該技術(shù)的基本原理是相同的。在所有情況下,在兩個(gè)芯片下面放置某種interposer,然后兩個(gè)芯片之間的信號(hào)通過(guò)interposer進(jìn)行傳輸。芯片的超精細(xì)制造能力意味著可以在兩個(gè)芯片之間鋪設(shè)大量的線(xiàn)路(在蘋(píng)果的案例中,超過(guò)10000條)這使得兩個(gè)芯片之間可以實(shí)現(xiàn)超寬、超高的帶寬連接。

官方說(shuō),蘋(píng)果只說(shuō)他們?cè)谶@里使用的是silicon interposer,這是這項(xiàng)技術(shù)的通用術(shù)語(yǔ)。但是,從蘋(píng)果的宣傳視頻和模擬動(dòng)畫(huà)來(lái)看,他們似乎在使用某種小型硅橋(silicon bridge)。這與英特爾的EMIB技術(shù)或Elevated Fanout Bridge(EFB)技術(shù)在實(shí)施上相似。這兩種技術(shù)都已經(jīng)在市場(chǎng)上使用了多年,所以蘋(píng)果不是第一個(gè)使用該技術(shù)的廠商。但他們使用它的目的相當(dāng)有趣。

通過(guò)UltraFusion,蘋(píng)果能夠在兩個(gè)M1 Max芯片之間提供令人難以置信的2.5TB/s的帶寬。即使我們假設(shè)這是一個(gè)總數(shù)(將兩個(gè)方向加起來(lái)),這仍然意味著他們?cè)诿總€(gè)方向有1.25TB/s的帶寬。所有這些都接近于一些芯片使用的內(nèi)部帶寬,并超過(guò)了蘋(píng)果800GB/s的DRAM總帶寬。

這里重要的一點(diǎn)是,蘋(píng)果已經(jīng)成為第一個(gè)將兩個(gè)GPU與如此巨大的帶寬結(jié)合起來(lái)的公司。這使他們能夠嘗試將兩個(gè)GPU作為一個(gè)單一的設(shè)備呈現(xiàn)給操作系統(tǒng)和應(yīng)用程序,因?yàn)樗试S他們?cè)诒匾獣r(shí)在GPU之間快速切換數(shù)據(jù)。

但也應(yīng)該注意到,有很多細(xì)節(jié)可以決定這種方法是否有用。例如,鑒于GPU的高性能,2.5TB/s是否足夠?以及從GPU到GPU的額外延遲對(duì)性能的影響是什么??jī)H僅因?yàn)樘O(píng)果通過(guò)將GPU內(nèi)核拼接在一起而使其數(shù)量增加了一倍,并不意味著蘋(píng)果的GPU性能增加了一倍。但最終,如果它的運(yùn)行效果還不錯(cuò),那么對(duì)未來(lái)的GPU設(shè)計(jì)的影響將是巨大的。

GPU性能:超越GeForce RTX 3090

通過(guò)UltraFusion,蘋(píng)果已經(jīng)成為第一個(gè)將兩個(gè)獨(dú)立的GPU透明地結(jié)合起來(lái)的芯片供應(yīng)商。雖然我們還要等待后續(xù)的效果,但蘋(píng)果對(duì)他們的成就及其性能感到興奮。

特別是,蘋(píng)果聲稱(chēng)M1 Ultra的GPU性能超過(guò)了英偉達(dá)的GeForce RTX 3090,后者是目前市場(chǎng)上速度最快的顯卡。此外,他們的能耗僅為100多W,比RTX 3090少200W。

從性能的角度來(lái)看,假設(shè)他們的多GPU技術(shù)如宣傳的那樣有效,蘋(píng)果的說(shuō)法看起來(lái)是合理的。盡管RTX 3090的速度非???,蘋(píng)果卻投入了更多的晶體管。英偉達(dá)的GA102 GPU有283億個(gè)晶體管,而M1 Ultra是1140億個(gè)。當(dāng)然,并非所有都被用于M1 Ultra的顯卡,但有了這么多的晶體管,蘋(píng)果不必羞于在這個(gè)問(wèn)題上投入了更多的硅。

蘋(píng)果的硅數(shù)量也是其低能耗的關(guān)鍵之一。正如我們?cè)贛1 Max上已經(jīng)看到的,蘋(píng)果已經(jīng)建立了一個(gè)足夠?qū)挼腉PU,可以在電壓/頻率曲線(xiàn)上保持良好和較低的時(shí)鐘速度,從而使整體功耗下降。相比之下,RTX 3090的設(shè)計(jì)是為了追求性能而不考慮功耗,使英偉達(dá)能夠獲得出色的性能,但只能通過(guò)在電壓頻率曲線(xiàn)上保持高位。當(dāng)然,蘋(píng)果在這里享有巨大的制造工藝優(yōu)勢(shì),使用臺(tái)積電的N5工藝而不是三星的8nm工藝。

盡管如此,考慮到蘋(píng)果試圖通過(guò)透明的多GPU設(shè)計(jì)實(shí)現(xiàn)的突破性本質(zhì),必須強(qiáng)調(diào)的是,至少在目前,對(duì)蘋(píng)果的性能主張應(yīng)該有所保留。蘋(píng)果通常不會(huì)做半生不熟的事,但由于以這種方式拼接兩個(gè)GPU還沒(méi)有被證實(shí),所以保留一點(diǎn)懷疑是正常的。

雖然蘋(píng)果從他們采用自研的Mac芯片的第一天就表示打算擴(kuò)展他們的芯片設(shè)計(jì),但M1 Ultra還是超出了大多數(shù)人的預(yù)期。在達(dá)到了單個(gè)芯片實(shí)際尺寸的極限之后,蘋(píng)果已經(jīng)采取了合乎邏輯的下一步,開(kāi)始在一個(gè)芯片上放置多個(gè)芯片,以建立一個(gè)工作站級(jí)的處理器??紤]到各種限制因素,這一步是必要的,但從歷史上來(lái)看,這一招甚至比以往蘋(píng)果的典型做法還要前沿。

最終的結(jié)果是,蘋(píng)果宣布了一個(gè)在多個(gè)層面上都沒(méi)有競(jìng)爭(zhēng)對(duì)手的SoC。對(duì)于CPU來(lái)說(shuō),在工作站中采用multi-die/multi-chip是非常有效的策略,但在GPU上這樣做則可能使蘋(píng)果處于一個(gè)非常獨(dú)立的水平。如果他們的透明多GPU技術(shù)像該公司所說(shuō)的那樣有效,那么蘋(píng)果將在性能和開(kāi)發(fā)制造這種芯片所需的尖端技術(shù)方面比他們的競(jìng)爭(zhēng)對(duì)手領(lǐng)先更多。在這方面,雖然蘋(píng)果在UltraFusion 2.5D芯片封裝技術(shù)方面有點(diǎn)落后于行業(yè),但他們?cè)噲D用它來(lái)彌補(bǔ)失去的時(shí)間。

我們非??释吹組1 Ultra在現(xiàn)實(shí)世界中的表現(xiàn)。蘋(píng)果已經(jīng)為M1 Max設(shè)定了一個(gè)相當(dāng)高的標(biāo)準(zhǔn),現(xiàn)在他們的目標(biāo)是通過(guò)M1 Ultra超越它。如果他們能實(shí)現(xiàn)這些目標(biāo),那么他們將在短短6個(gè)月的時(shí)間里兩次為SoC設(shè)計(jì)制定了新的高點(diǎn)。這的確是一個(gè)令人興奮的時(shí)代。

[參考文章]

Apple Announces M1 Ultra: Combining Two M1 Maxes For Workstation Performance — Ryan Smith

蘋(píng)果

蘋(píng)果

蘋(píng)果公司(Apple Inc.),是美國(guó)的一家跨國(guó)科技公司,總部位于美國(guó)加州庫(kù)比蒂諾硅谷,由史蒂夫·喬布斯和斯蒂夫·蓋瑞·沃茲尼亞克共同創(chuàng)立。公司最初從事電腦設(shè)計(jì)與銷(xiāo)售業(yè)務(wù),后發(fā)展為包括設(shè)計(jì)和研發(fā)電腦、手機(jī)、穿戴設(shè)備等電子產(chǎn)品,提供計(jì)算機(jī)軟件、在線(xiàn)服務(wù)等業(yè)務(wù) 。

蘋(píng)果公司(Apple Inc.),是美國(guó)的一家跨國(guó)科技公司,總部位于美國(guó)加州庫(kù)比蒂諾硅谷,由史蒂夫·喬布斯和斯蒂夫·蓋瑞·沃茲尼亞克共同創(chuàng)立。公司最初從事電腦設(shè)計(jì)與銷(xiāo)售業(yè)務(wù),后發(fā)展為包括設(shè)計(jì)和研發(fā)電腦、手機(jī)、穿戴設(shè)備等電子產(chǎn)品,提供計(jì)算機(jī)軟件、在線(xiàn)服務(wù)等業(yè)務(wù) 。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶(hù)資源
  • 寫(xiě)文章/發(fā)需求
立即登錄