• 正文
    • 1. Qwen3 相比 Qwen 歷史版本的主要升級
    • 2. Qwen3 與 DeepSeek 的技術對比
    • 3. DeepSeek 的技術優(yōu)勢
    • 4. 總結
  • 相關推薦
申請入駐 產業(yè)圖譜

收藏:Qwen3技術演進與DeepSeek對比

4小時前
201
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

Qwen3 是阿里巴巴通義千問團隊在 2025 年 4 月發(fā)布的最新大模型,相比 Qwen 歷史版本(如 Qwen2.5、Qwen1.5)以及 DeepSeek 的 R1 和即將發(fā)布的 R2 模型,在架構、性能、成本效率等方面均有顯著提升。

本文所有資料都已上傳至“智能計算芯知識”星球。如“《92+份GPU芯片技術及白皮書合集》”,“《60+份AI Agent技術報告合集》”,“北京大學:10+份DeepSeek技術實踐報告合集”,“《清華大學:DeepSeek報告19部曲合集》”,“浙江大學:DeepSeek技術20篇(合集)”,“《310+份DeepSeek技術報告合集》”,“《100+份AI芯片技術修煉合集》”,“800+份重磅ChatGPT專業(yè)報告”,加入星球獲取嚴選精華技術報告,內容持續(xù)更新...

1. Qwen3 相比 Qwen 歷史版本的主要升級

(1) 架構創(chuàng)新:混合推理 + MoE 設計

混合推理架構(快思考 + 慢思考)
Qwen3 首次引入“快思考”和“慢思考”雙模式,可根據(jù)任務復雜度動態(tài)調整計算資源:

快思考(非推理模式):適用于簡單問答、指令執(zhí)行,響應延遲低至毫秒級。

慢思考(推理模式):針對數(shù)學、代碼生成等復雜任務,啟用多步推理鏈(Chain of Thought),提升準確性。

用戶可設置“思考預算”(最大推理 tokens 數(shù)),平衡成本與質量。

MoE(混合專家)架構大幅提升效率

Qwen3-235B-A22B 總參數(shù) 2350 億,但僅激活 220 億(約 10%),相比傳統(tǒng)稠密模型(如 Qwen2.5-72B)計算成本降低 90%。

(2) 訓練數(shù)據(jù)與多語言能力

訓練數(shù)據(jù)翻倍(36 萬億 token,Qwen2.5 僅 18 萬億),涵蓋 STEM、編程、多語言文檔及合成數(shù)據(jù)。

支持 119 種語言,覆蓋全球 90% 以上人口,尤其優(yōu)化了小語種能力。

(3) 性能提升

數(shù)學能力:AIME25 奧數(shù)測評 81.5 分,刷新開源紀錄。

代碼能力:LiveCodeBench 評測突破 70 分,超越 Grok 3。

Agent 能力:BFCL 評測 70.8 分,優(yōu)于 OpenAI o1 和 Gemini 2.5 Pro。

(4) 部署成本大幅降低

僅需 4 張 H20 顯卡?即可部署 Qwen3-235B-A22B(成本約 50 萬),而 DeepSeek-R1 671B 需 12 張 A100(成本 200 萬)。

(5)關鍵性能提升

能力維度 Qwen3表現(xiàn) 對比Qwen2.5提升
數(shù)學推理 AIME25奧數(shù)測評81.5分 +22%
代碼生成 LiveCodeBench 70分 +35%
Agent能力 BFCL評測70.8分(超越Gemini 2.5 Pro) +40%
長文本 128K上下文,關鍵信息召回率98% 上下文利用率提升50%

(6)部署成本革命

硬件需求大幅降低

Qwen3-235B-A22B僅需4張H20顯卡(成本約50萬)。

對比:同規(guī)模稠密模型需12張A100(成本200萬+)。

開源策略

全系列Apache 2.0開源(含MoE架構細節(jié)),衍生模型已超10萬。

提供量化版本(INT4/INT8),可在消費級GPU(如RTX 4090)運行。


2. Qwen3 與 DeepSeek 的技術對比

(1) 架構對比

維度 Qwen3 DeepSeek-R1 DeepSeek-R2(預計)
架構 MoE + 混合推理(動態(tài)激活 10%) 傳統(tǒng)稠密架構(全參數(shù)激活) Hybrid MoE 3.0(激活 6.5%)
參數(shù)規(guī)模 235B(激活 22B) 671B(全激活) 1.2T(激活 78B)
推理成本 4 張 H20(成本 50 萬) 12 張 A100(成本 200 萬) 預計比 Qwen3 更低
多模態(tài) 文本+Agent 強化 純文本 支持文本+圖像輸入

(2) 性能對比

數(shù)學推理:Qwen3(AIME25 81.5 分) > DeepSeek-R1(未公布)。

代碼生成:Qwen3(LiveCodeBench 70 分) > DeepSeek-R1。

Agent 能力:Qwen3(BFCL 70.8 分) > DeepSeek-R1(56.9 分)。

(3) 開源生態(tài)

Qwen3:全系列 Apache 2.0 開源,衍生模型超 10 萬,超越 Llama。

DeepSeek:部分閉源,生態(tài)開放性較低。


3. DeepSeek 的技術優(yōu)勢

盡管 Qwen3 在多個方面領先,DeepSeek 仍有獨特優(yōu)勢:

萬億參數(shù)規(guī)模(R2 預計 1.2T),可能帶來更強的長文本理解能力。

更極致的稀疏激活(6.5% vs Qwen3 的 10%),進一步降低推理成本。

多模態(tài)支持(R2 新增圖像輸入),彌補 R1 的短板。

專業(yè)領域優(yōu)化(醫(yī)療、工業(yè)質檢等),在特定任務上超越專家組。


4. 總結

Qwen3 優(yōu)勢

混合推理架構(靈活平衡效率與深度)
MoE 超高效率(激活參數(shù)僅 10%,成本極低)
開源生態(tài)最強(全系列 Apache 2.0,衍生模型超 10 萬)
多語言 & Agent 能力突出(119 種語言,BFCL 70.8 分)

DeepSeek 優(yōu)勢(R2 預期)

萬億參數(shù) + 超稀疏激活(可能帶來更強推理能力)
多模態(tài)支持(文本+圖像輸入)
專業(yè)領域優(yōu)化(醫(yī)療、工業(yè)等垂直場景)

未來競爭焦點:Qwen3?已搶占“高效 MoE + 混合推理”高地,DeepSeek R2 需在萬億參數(shù)效率多模態(tài)能力上突破才能反超。

本號資料全部上傳至知識星球,更多內容請登錄智能計算芯知識(知識星球)星球下載全部資料。

阿里巴巴

阿里巴巴

阿里巴巴集團經營多項業(yè)務,另外也從關聯(lián)公司的業(yè)務和服務中取得經營商業(yè)生態(tài)系統(tǒng)上的支援。業(yè)務和關聯(lián)公司的業(yè)務包括:淘寶網(wǎng)、天貓、聚劃算、全球速賣通、阿里巴巴國際交易市場、1688、阿里媽媽、阿里云、螞蟻金服、菜鳥網(wǎng)絡等。

阿里巴巴集團經營多項業(yè)務,另外也從關聯(lián)公司的業(yè)務和服務中取得經營商業(yè)生態(tài)系統(tǒng)上的支援。業(yè)務和關聯(lián)公司的業(yè)務包括:淘寶網(wǎng)、天貓、聚劃算、全球速賣通、阿里巴巴國際交易市場、1688、阿里媽媽、阿里云、螞蟻金服、菜鳥網(wǎng)絡等。收起

查看更多

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄