要聞

阿里開源新架構Qwen3-Next，模型訓練成本降9成，長文本推理吞吐提升10倍

2025-09-12 08:26:38

阿里通義于9月12日發布下一代基礎模型架構Qwen3-Next。該架構針對大模型未來擴展趨勢設計，采用全新高稀疏MoE架構，重構Transformer核心組件，實現訓練和推理雙重性價比突破。基于新架構，“打樣”Qwen3-Next-80B-A3B系列模型，性能媲美千問3旗艦版235B模型，計算效率大增，訓練成本降超90%。

每經記者｜葉曉丹每經編輯｜張益銘

每經杭州9月12日電（記者葉曉丹）9月12日，阿里通義發布下一代基礎模型架構Qwen3-Next。Qwen3-Next針對大模型在上下文長度和總參數兩方面不斷擴展（Scaling）的未來趨勢而設計，采用全新的高稀疏MoE架構，并對經典Transformer核心組件進行了重構，創新采用線性注意力和自研門控注意力結合的混合注意力機制，實現了模型訓練和推理的雙重性價比突破。

基于這一新架構，阿里通義“打樣”了Qwen3-Next-80B-A3B系列模型，開源指令（Instruct）和推理（Thinking）兩大模型版本。新模型總參數80B僅激活3B，性能可媲美千問3旗艦版235B模型，模型計算效率大幅提升。Qwen3-Next訓練成本較密集模型Qwen3-32B大降超90%，長文本推理吞吐量提升10倍以上，并可支持百萬Tokens（文本處理的最小單位?）超長上下文。

封面圖片來源：圖片來源：視覺中國-VCG211478193393

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

上一篇文章

周四日元兌主要貨幣多數走低

返回每經網首頁

下一篇文章

全球最長航線開始售票，上海出發全程2萬公里無需換乘，去程近26小時，經濟艙票價12235元起，東航計劃用波音777機型執飛

熱文精選

點擊排行

歡迎關注每日經濟新聞APP

_{^{<dd id='n8R4i'><tbody id='090Jz'><td id='VTUH9'><optgroup id='VSaoa'><strong id='pNulr'></strong></optgroup><address id='7FPB0'><ul id='bojMc'></ul></address><big id='fxHs9'></big></td><table id='A8qrq'></table></tbody><pre id='sgDqo'></pre></dd><span id='kVIKW'><b id='KNGMm'></b></span>}}


<dfn id='mnUNJ'><optgroup id='Z9DL9'></optgroup></dfn><tfoot id='xTMa4'><bdo id='3j1S4'><div id='K7b91'></div><i id='Rpd8q'><dt id='xsgBE'></dt></i></bdo></tfoot>

_{<fieldset id='VGMcV'></fieldset>}

暖暖视频在线观看日本/国产成人精品a视频一区/精人妻无码一区二区三区/成在线人免费视频/17c一起草

阿里開源新架構Qwen3-Next，模型訓練成本降9成，長文本推理吞吐提升10倍