“服務器繁忙,請稍后再試”
Deepseek已經學會玩自己的梗
這是近期在官網體驗Deepseek功能的用戶最常看到的提示,讓人抓狂不已。功能間接性癱瘓和算力不足背后,是Deepseek高度破圈,7天實現用戶破億的壯舉。游戲科學創(chuàng)始人、《黑神話:悟空》制作人馮驥對其有著高度評價,“Deepseek,可能是個國運級別的科技成果?!?/p>
繁榮有競爭力的下游應用,能為芯片產業(yè)的未來發(fā)展指明方向并提供廣闊的市場,如我國新能源汽車和智能手機行業(yè)對國產芯片的推動作用。如今Deepseek的出現,也為國際競爭中處于相對劣勢的國產芯片提供了機會。諸多業(yè)內人士稱,“有望推動國內廠商有機會在推理側與英偉達搶占一定份額。”
風華GPU研發(fā)負責人Cuki向芯師爺表示,Deepseek展現出的強大性能吸引了很多用戶,改變了大眾對于大模型的認知,未來大家對deepseek的依賴度和認可度會很高。對于這樣主流的下游應用場景,處于產業(yè)鏈上游的芯片廠商自然會抓緊適配,這和硬件企業(yè)的市場推廣有非常強的正相關性。
也正因此,近期國內掀起一輪國產AI芯片廠商競相適配風潮。據芯師爺不完全統(tǒng)計,已有華為、海光信息、龍芯中科、壁仞科技在內的21家國內廠商參與其中。
?注 資料源自企業(yè)資料及公開信息 | 芯師爺制圖
Vol.1/? ?21家企業(yè)適配Deepseek 寒武紀也未失約
目前已經官宣適配Deppseek的國產芯片企業(yè)已經至少有21家,不過在官宣時間方面略有先后。
早在2月2日(大年初五),Gitee AI稱聯合國產GPU獨角獸沐曦,基于曦云 C 系列GPU完成DeepSeek 蒸餾版本模型的適配。2月4日(大年初七)的時候,海光信息官宣團隊完成DeepSeek V3和R1模型與海光DCU(深度計算單元)的適配。2月7日,龍芯中科方面稱,聯合太初元碁等產業(yè)伙伴,在太初T100加速卡上完成DeepSeek-R1系列模型的適配工作,采用龍芯3A6000處理器的誠邁信創(chuàng)電腦和望龍電腦已實現本地部署DeepSeek。
在所有國產芯片企業(yè)當中,市值在年前曾突破3000億大關的國產AI芯片龍頭寒武紀格外被輿論關注?;蚴艽汗?jié)假期影響,以及本身行事風格比較低調,國產寒武紀適配Deepseek的消息出得稍晚,一度被眾多網友玩梗。2月10日,南京智算中心稱已經攜手寒武紀,用國產芯片、國產算力設備運行大模型DeepSeek。不過,此次官方信息中并未透露適配芯片的具體型號。據了解,南京智能計算中心在2021年7月投入運營,起初搭載的是寒武紀思元270和思元290智能芯片及加速卡。
在所有企業(yè)宣布適配Deepseek的資料當中,有兩個信息點被企業(yè)方著重提及,一個是適配的模型類型,如部分企業(yè)可以適配DeepSeek-R1系列模型,其中滿血版的參數規(guī)格達671B,部分企業(yè)則只支持DeepSeek-R1全系列蒸餾模型(參數規(guī)格在1.5B-8B之間)。
另一個比較重要的信息則是適配Deepseek所耗費的時間,如龍芯中科于合作伙伴在適配方面花費時間為2小時,靈汐科技的適配時間為半天,天數智芯、風華創(chuàng)智在適配工作上花費的時間為一天。對于部分企業(yè)著重宣傳適配耗費時間這個點,有業(yè)內人士稱,“這是國內AI芯片廠商在試圖證實,自身在AI生態(tài)適配方面的速度和實力?!?/p>
對于芯片企業(yè)在上述兩點信息披露上的差異,此芯科技多媒體和AI開發(fā)總監(jiān)陳國銀向芯師爺指出,就Deepseek模型推理的適配來看,各個芯片廠商適配分成兩類。
一類是適配原生R1和V3模型,這類主要面向云端推理市場,其適配過程有一定的挑戰(zhàn),主要在于模型671B的這么大參數量以及MOE和MLA的推理結構,通常要解決多卡互聯,MOE路由分配并行計算,異構資源分配, MLA新的KV cache緩存機制,FP8參數類型,內存帶寬和卡間通信優(yōu)化等;另一類是通過R1蒸餾的小模型,從1.5B到70B的模型大小都有,端側推理主要集中在8B模型以下的蒸餾模型。這類模型推理過程和原始非蒸餾版本是一樣的,因此只要原來芯片能夠適配之前流行的Qwen和Llama模型,就能非??焖俚倪m配。成熟硬件在適配端側蒸餾模型主要挑戰(zhàn)在于內存帶寬帶來的挑戰(zhàn)和相關量化數據類型計算支持。
Cuki指出,只要有足夠多的設備、足夠的時間,其實企業(yè)都可以適配滿血版的Deepseek,但問題在于適配后大模型的體驗感、性能好不好。在日常生活、企業(yè)辦公等常規(guī)環(huán)境中,32B版本的Deepseek已經足夠用。所以基于適配后的大模型使用體驗、投入的資源、產品能力等多方面因素的考量,有不少企業(yè)選擇了適配更輕量化的蒸餾模型。
陳國銀表示,不同模型大小適應的場景不一樣,云端推理需要模型參數比較大,模型性能最好,主要適配原生R1或者V3模型,如前面所說,這類適配難度比較大,因此需要一定的開發(fā)和優(yōu)化工作,需要更長的時間。端側芯片主要適配1.5B~8B間的模型,這類模型推理結構非常成熟,無需花費額外的工作。以此芯P1芯片為例,P1面向端側AI PC場景設計,對于端側8B以下大語言模型有成熟的支持,此芯有完善的AI SDK工具鏈,能夠簡化適配流程,因此只要模型拿到之后,做些簡單量化,就能高效而準確的完成相關推理任務。面對不斷創(chuàng)新的模型和推理結構,芯片企業(yè)在芯片設計時需要充分考慮計算的靈活性和充足的帶寬,在軟件工程上要有極致的工程優(yōu)化能力。
“眾多國產AI芯片廠商與DeepSeek的快速適配潮是中國芯片實現國際化突擊的第一步?!盋IC灼識咨詢高級咨詢顧問張笑璐接受21世紀財經報道采訪時稱,DeepSeek對于中國AI芯片廠商的利好非常確定,通過與DeepSeek合作,中國芯片廠商加速了深度學習框架和分布式訓練適配,推動了中國“國產算力+國產大模型”閉環(huán)生態(tài)。
Vol.2/? ?適配之后 下一步怎么走?
“在適配工作之后,產業(yè)將會把資源和精力轉移到大模型的應用落地上?!盋uki認為,“在這一階段,硬件企業(yè)承擔的角色主要有兩個,第一提供模型所需要的硬件底座設施平臺,第二是與模型應用落地所需要的產業(yè)生態(tài)做深度的配合?!?/p>
盡管以ChatGPT為代表的各類AI大模型自2022年年底開始風靡全球市場,在兩年多的時間里,各行各業(yè)盡管都先后與AI大模型鏈接,但行業(yè)一直處于產業(yè)商業(yè)模式落地的探索過程中,尚未有明確可行的案例出現。之所以如此,一方面在于AI+產業(yè)融合還在融合當中,不夠成熟,另一方面在于,此前的AI大模型成本太高。
Deepseek憑借較低成本和高性能出圈,也給了AI大模型的應用落地提供了不錯的解決方案。根據Cuki的觀察,大模型在互聯網、教育、金融方面會走得更快,例如研究所、高校的基礎教學、科研工作非常契合大模型的應用落地。以為AI芯片產業(yè)界人士與Cuki持類似觀點,他認為AI在與教育結合的過程中,有兩點值得關注,其一是Deepseek讓學校能以更低成本、更高效率利用AI技術,加速人工智能教育的普及與實現,其二是國產算力對deepseek快速靈活適配和開源,對在美國禁售情況下實現突破,對全國產化環(huán)境下開展AI人才培養(yǎng)和研究成為新途徑。
據了解,近期壁仞科技聯合中興通訊、浙江大學上海高等研究院和一驀科技共同打造了智海AI教育一體機。該產品快速實現了國產算力與DeepSeek的適配及知識課程、實訓課題、智能體等教學工具的設計開發(fā),形成了包含AI通識課、專業(yè)課、實踐實訓在內的一體化解決方案,讓學校能以更低成本、更高效率利用AI技術,加速人工智能教育的普及與實現。
值得一提的是,除了上述三個方向之外,端側AI也被眾多人士看好。隨著Deepseek的大熱,市場已經喊出“2025是端側AI應用元年”的口號。
此前,功能比較齊全的AI大模型的參數規(guī)格動輒百億上千億,很難在算力有限的AI眼鏡、智能機器人、智能手機上部署,而某些參數較小的大模型在功能方面有所缺失,用戶實際體驗感并不好。也正因此,即使端側AI的呼聲很高,但實際的落地效果并不算好。
芯師爺在去年曾體驗了一款新發(fā)布的AI眼鏡,由于產品內置芯片的算力較小,所以廠商采用的是云端AI聯動,AI與人的交互流暢性有待加強,而且一旦離線,其AI功能幾乎不可用。而Deepseek的出現,可以直接將其蒸餾版大模型本地部署,無需聯網便可有較好的用戶體驗,且并不需要太大的算力做支撐。
陳國銀表示,“隨著R1蒸餾技術的普及,小模型具備了原來只有大模型才具備的能力,特別是長思維鏈下的編程和復雜問題推理能力,會迸發(fā)出不同的創(chuàng)新應用和新場景,加速端側模型應用和落地?!?/p>
一家國內消費電子配套芯片公司人士接受《科創(chuàng)板日報》采訪時表示,盡管他們的產品在產業(yè)鏈幾乎最上游,但還是能感受到DeepSeek為智能終端行業(yè)帶來的積極影響?!癆I降本之后,終端應用預計會有大的爆發(fā),繼續(xù)看好眼鏡、玩具、AI手機、AI PC等消費電子?!?/p>
“未來端側模型推理落地的場景也會非常豐富,例如AI一體機,家庭AI網關,AI PC,邊緣服務器,智能機器人等?!睂τ诙藗華I的未來,陳國銀非??春?,而關于下游AI場景對于上游硬件的推動,他認為,不同的端側場景對芯片算力,功耗,安全,成本和功能都會有不同的要求,未來對于硬件的要求從能運行到運行得好過渡,同時時刻準備新的模型應用場景。硬件企業(yè)應該在提供基礎算力能完成相關推理基礎上,下一步重點可能是性能極致優(yōu)化,多場景下功耗和性能的平衡,豐富AI生態(tài)的對接,多模態(tài)數據融合和處理。