?
Altera發(fā)布了業(yè)界第一款支持硬核浮點DSP的FPGA,硬核浮點DSP模塊將集成在Altera 20nm Arria 10 FPGA和SoC中,也會集成在14nm Stratix 10 FPGA和SoC中。這一革命性的設(shè)計會對器件浮點運(yùn)算性能帶來多大的提升,對傳統(tǒng)FPGA浮點運(yùn)算設(shè)計帶來多大的改變,又會對DSP以及GPU市場帶來多大的影響,Altera公司首席DSP產(chǎn)品規(guī)劃經(jīng)理Michael Parker、軟件和DSP產(chǎn)品市場經(jīng)理Albert Chang先生連線國內(nèi)媒體,帶來了精彩的內(nèi)容分享。
硬核兼容IEEE754,支持單精度浮點運(yùn)算
支持硬核浮點DSP的FPGA使用專用硬核電路,能夠自然支持IEEE 754單精度浮點。IEEE 754浮點所有復(fù)數(shù)都位于DSP模塊的硬核邏輯中,不會占用可編程邏輯,即使是100%的使用了DSP模塊,浮點也支持定點設(shè)計中相似的時鐘速率。
采用TSMC 20nm工藝的Arria 10 系列,浮點運(yùn)算性能將達(dá)到1.5TFLOP的DSP性能,而且是單精度。它的運(yùn)行頻率可以達(dá)到400到450MHz,在軟件方面支持OpenCL、DSP Builder和浮點宏功能。
至于1.5TFLOP的浮點運(yùn)算是如何計算出的,筆者也作了詳細(xì)的了解:Arria 10器件10AX066含有660 kLE的邏輯,以及1688個DSP模塊,總共有1688個浮點加法器和1688個浮點乘法器。運(yùn)行在450 MHz的總計3376個浮點運(yùn)算器性能達(dá)到了1520 GFLOPS。德州儀器、Nvidia和AMD也都是采用這一峰值浮點性能判定方法計算其DSP和GPU的峰值GFLOPS的。
而采用Intel 14nm三柵極工藝制成的高端FPGA和SOC Stratix 10系列單精度浮點運(yùn)算可以達(dá)到10TFLOP的水平。
浮點模塊與現(xiàn)有設(shè)計是后向兼容,對定點性能沒有影響。DSP設(shè)計人員可以選擇定點或者浮點模式,每一個DSP模塊都可以獨(dú)立運(yùn)行。
極大提高設(shè)計效能及資源使用效率
加入硬核浮點模塊帶來的提升是巨大的,它極大的提高了設(shè)計人員的效能,也釋放了FPGA的邏輯資源,使其可以供其他任務(wù)使用,為設(shè)計產(chǎn)品的迅速面市提供了可靠保障。
?
以前的系列,如果想要進(jìn)行浮點設(shè)計的話,需要先建立設(shè)計,然后進(jìn)行人工轉(zhuǎn)換,將浮點轉(zhuǎn)換為定點,在FPGA中實現(xiàn)(定點)。此外,還需驗證轉(zhuǎn)換過程當(dāng)中的準(zhǔn)確率,如果設(shè)計方面有任何的修改或變化,都需要重新把這些流程再進(jìn)行一遍。
后來,在V系列中設(shè)計流程進(jìn)行了一些調(diào)整,通過軟核來實現(xiàn)。也就是說,如果客戶還要進(jìn)行浮點的設(shè)計,在FPGA當(dāng)中通過軟件就可以實現(xiàn)。但問題是,性能不那么優(yōu)異,可能還會使用大量的邏輯器件,帶來時序收斂方面的問題,會要花更多的一些時間。
在Arria 10和Stratix 10當(dāng)中, FPGA中集成了硬核浮點DSP。在進(jìn)行浮點設(shè)計時,在FPGA中通過硬核浮點就可以實現(xiàn),不需要驗證是否正確,也沒有時序收斂的問題,節(jié)省了大量的時間。
此外,資源效率方面帶來的提升也是巨大的。在過去,實現(xiàn)浮點運(yùn)算功能的話需要定點的DSP模塊加上很多的邏輯資源。比如有3000個這樣的DSP模塊,把這些模塊用完之后,可能邏輯器件就不夠用了?,F(xiàn)在所有的DSP模塊都可以使用,可以釋放數(shù)千個這樣邏輯資源。此外節(jié)省了很多的邏輯資源,功耗也會有所降低。
DSP、GPU應(yīng)用市場將受到?jīng)_擊
Albert Chang先生在采訪中特別提到目前最小的Arria 10系列的產(chǎn)品就相當(dāng)于德州儀器現(xiàn)在最優(yōu)的DSP處理器。在性能上Arria 10系列完全可以替代高性能的DSP處理器,甚至在某些場合可以取代GPU,因為其在功耗、時延和連接到網(wǎng)絡(luò)的便利性方面,都擁有優(yōu)勢,此外FPGA還可以設(shè)計為在高溫下工作。
大家關(guān)心的產(chǎn)品價格問題,雖然具體的數(shù)字這次并沒有透露,但是Michael Parker強(qiáng)調(diào)具備硬核浮點運(yùn)算功能的FPGA比市場上一些沒有浮點運(yùn)算功能的FPGA的價格應(yīng)該是具有競爭力的。
?
在中國的機(jī)會巨大
在談到該系列產(chǎn)品的應(yīng)用領(lǐng)域時,Michael Parker特別提到了中國正在進(jìn)行的無線網(wǎng)絡(luò)建設(shè)?,F(xiàn)在很多基站,LTE基帶運(yùn)算是通過DSP處理器或者是專門定制化的硬件來實現(xiàn)的。基站遍布全球各地,都是分散的,如果有一些新的功能,新的特征想要加進(jìn)來,或者想要升級的話就會比較困難。新的架構(gòu)希望把這些處理能力都集中起來,讓服務(wù)器來處理。如果有新的標(biāo)準(zhǔn)出現(xiàn),要進(jìn)行升級都可以集中完成。所以像這么大的一個處理能力是DSP或者CPU沒有辦法來應(yīng)對的。對于軟件工程師來說,新的無線標(biāo)準(zhǔn)需要更大的運(yùn)算能力,Altera推出的這種帶硬核浮點運(yùn)算的FPGA可能就是一款非常適合他們需求的產(chǎn)品。
此外浮點FPGA產(chǎn)品,對客戶來說是比較容易使用的。它不需要像定點的FPGA,需要豐富的經(jīng)驗和知識,也不需要用那么長的開發(fā)時間來進(jìn)行正確與否的驗證等等。所以Altera認(rèn)為中國的客戶可能會更傾向于使用這種浮點的FPGA產(chǎn)品。
作為業(yè)界第一款支持硬核浮點DSP的FPGA產(chǎn)品,它的推出大大簡化了之前在FPGA中進(jìn)行浮點運(yùn)算設(shè)計的流程,也大大縮短了產(chǎn)品開發(fā)上市的時間。FPGA產(chǎn)品在SoC化的道路上越走越遠(yuǎn),功能也越做越強(qiáng),而硬核浮點DSP模塊的加入使其更加如虎添翼。
與非網(wǎng)原創(chuàng)內(nèi)容,未經(jīng)許可,不得轉(zhuǎn)載