暖暖视频在线观看日本/国产成人精品a视频一区/精人妻无码一区二区三区/成在线人免费视频/17c一起草

每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

阿里開源新架構Qwen3-Next,模型訓練成本降9成,長文本推理吞吐提升10倍

2025-09-12 08:26:38

阿里通義于9月12日發布下一代基礎模型架構Qwen3-Next。該架構針對大模型未來擴展趨勢設計,采用全新高稀疏MoE架構,重構Transformer核心組件,實現訓練和推理雙重性價比突破。基于新架構,“打樣”Qwen3-Next-80B-A3B系列模型,性能媲美千問3旗艦版235B模型,計算效率大增,訓練成本降超90%。

 每經記者|葉曉丹    每經編輯|張益銘    

每經杭州9月12日電(記者葉曉丹)9月12日,阿里通義發布下一代基礎模型架構Qwen3-Next。Qwen3-Next針對大模型在上下文長度和總參數兩方面不斷擴展(Scaling)的未來趨勢而設計,采用全新的高稀疏MoE架構,并對經典Transformer核心組件進行了重構,創新采用線性注意力和自研門控注意力結合的混合注意力機制,實現了模型訓練和推理的雙重性價比突破。

基于這一新架構,阿里通義“打樣”了Qwen3-Next-80B-A3B系列模型,開源指令(Instruct)和推理(Thinking)兩大模型版本。新模型總參數80B僅激活3B,性能可媲美千問3旗艦版235B模型,模型計算效率大幅提升。Qwen3-Next訓練成本較密集模型Qwen3-32B大降超90%,長文本推理吞吐量提升10倍以上,并可支持百萬Tokens(文本處理的最小單位?)超長上下文。

封面圖片來源:圖片來源:視覺中國-VCG211478193393

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

0

0