暖暖视频在线观看日本/国产成人精品a视频一区/精人妻无码一区二区三区/成在线人免费视频/17c一起草

每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

揭秘DeepSeek-V3“物美價廉”的背后:蒸餾技術存在天花板,依賴合成數據訓練有風險

每日經濟新聞 2024-12-31 19:19:07

深度求索DeepSeek-V3模(mo)型在業(ye)界掀起波瀾。據悉,該模(mo)型采用數據蒸(zheng)餾(liu)技術,將復雜數據簡(jian)化為高(gao)(gao)質(zhi)量(liang)數據,提(ti)升了訓(xun)(xun)練(lian)效(xiao)果。然而,有學(xue)者指(zhi)出(chu),蒸(zheng)餾(liu)技術雖能提(ti)高(gao)(gao)效(xiao)率,但(dan)可(ke)能導致“學(xue)生模(mo)型”無法超越“教(jiao)師模(mo)型”,甚至(zhi)影響創新(xin)。此(ci)外,DeepSeek-V3曾出(chu)現(xian)“自稱(cheng)是ChatGPT”的(de)幻覺(jue)問(wen)題(ti),引發外界對其訓(xun)(xun)練(lian)數據來源的(de)質(zhi)疑。專家強調,確保高(gao)(gao)質(zhi)量(liang)AI的(de)關鍵(jian)在于提(ti)供(gong)真實(shi)世界的(de)高(gao)(gao)質(zhi)量(liang)數據。

每(mei)經記者|鄭雨(yu)航    每(mei)經實習記者|岳(yue)楚鵬    ;每(mei)經編輯|蘭素英    

最近大火的深度求索DeepSeek-V3模型僅用557萬美元的訓練費用,就達到了頂尖模型的效果,而且產品價格低廉,因此被網友們戲稱為大模型界的“拼多多”。國外獨立評測機構Artificial Analysis在測試后聲稱,DeepSeek-V3超越了迄今為止所有開源模型。

DeepSeek-V3的訓練僅使用2048個H800 GPU,總訓練GPU卡時為2788千小時(其中預訓練為2664千小時)。與之相對比,根據黃仁勛在GTC2024上的演講內容,GPT-4 MoE使用8000個H100訓練了90天,合計約為17280千卡時,相當于DeepSeek-V3的6.2倍

DeepSeek-V3訓練提效的原因主要包括:低精度計算、小參數量和高質量數據等。據DeepSeek-V3的技術文檔,該模型使用數據蒸餾技術(Distillation)生成的高質量數據提升了訓練效率。數據蒸餾指的是通過一系列算法和策略,將原始的、復雜的數據進行去噪、降維、提煉等操作,從而得到更為精煉、有用的數據。

不過,蒸餾(liu)技術并不是十全十美。有學者認為,蒸餾(liu)技術雖然可以提高模(mo)型訓(xun)練效率,但借此開(kai)發的模(mo)型無法(fa)超(chao)越基礎模(mo)型的能力,在多模(mo)態數據方面效果不好,而且會導致研發人(ren)員為了快速取得成(cheng)果而放棄(qi)對基礎模(mo)型的探索。

針對AI訓練可能使用合成數據(大模型生成數據)這一話題,倫敦大學學院(UCL)名譽教授和計算機科學家彼得·本特利對《每日經濟新聞》記者表達了擔憂,稱“如果繼續在其他AI的輸出上訓練AI,結果可能是模型崩潰。確保高質量AI的唯一方法是,為其提供人類的高質量內容

圖片來源:AI生成

蒸餾技術并非新技術,諾獎得主辛頓2015年就已提出

根據(ju)DeepSeek-V3的(de)技術文檔,針(zhen)對(dui)推理相關(guan)數據(ju)集(ji)(如數學(xue)、代(dai)碼(ma)競賽、邏輯(ji)謎題等),DeepSeek-V3利用之前訓(xun)練好的(de) DeepSeek-R1模(mo)型(xing)生成(cheng)數據(ju)后,再使用結(jie)合了監督微(wei)調(SFT)和(he)強化(hua)學(xue)習(RL)訓(xun)練的(de)專家模(mo)型(xing)來蒸(zheng)餾生成(cheng)最終的(de)數據(ju)。針(zhen)對(dui)非推理數據(ju)(如創(chuang)意寫作(zuo)、角色扮演、簡單問答等),使用DeepSeek-V2.5生成(cheng)回復,并由人類驗證數據(ju)的(de)準確(que)(que)性(xing)和(he)正確(que)(que)性(xing)。這些(xie)高(gao)質(zhi)量數據(ju)幫助(zhu)提升了V3的(de)訓(xun)練效率,并提高(gao)了模(mo)型(xing)適(shi)應(ying)能(neng)力。

數(shu)據蒸餾是什么?每經記者查詢(xun)發現,蒸餾技術并不是新出(chu)現的事物,早在(zai)2015年,諾獎得主(zhu)杰(jie)弗里·辛頓(Geoffrey Hinton)就提出(chu)了(le)蒸餾(Distillation)這一思(si)想。

圖片來源:arxiv

南洋理工(gong)大(da)(da)學計算機研(yan)究人員王漢(han)卿向每經記者(zhe)表(biao)示,在谷(gu)歌提出劃時代的Transformer模(mo)型之前,大(da)(da)家都是(shi)在優(you)(you)化小模(mo)型,這里(li)加(jia)點(dian)東西,那里(li)加(jia)點(dian)東西,模(mo)型的變化都不大(da)(da),此時,蒸餾就是(shi)主要的優(you)(you)化手段(duan)。

數據蒸餾的目的是將復雜模型的知識提煉到簡單模型。這一想法是通過已有的高質量模型來合成少量高質量數據,作為新模型的訓練數據,從而達到接近于在原始數據上訓練的效果。

以前的(de)大(da)(da)(da)模(mo)型(xing)訓(xun)(xun)練相當于使用題海(hai)戰術(shu),在大(da)(da)(da)量(liang)的(de)數據中訓(xun)(xun)練,而蒸餾就相當于讓在題海(hai)戰術(shu)里(li)磨練過的(de)優秀大(da)(da)(da)模(mo)型(xing)充(chong)當新模(mo)型(xing)的(de)老師,篩選(xuan)出(chu)有效題目,再讓新的(de)大(da)(da)(da)模(mo)型(xing)訓(xun)(xun)練。因此前一(yi)個模(mo)型(xing)在業(ye)界常被稱(cheng)為“教師模(mo)型(xing)”,后一(yi)個模(mo)型(xing)常被稱(cheng)為“學生模(mo)型(xing)”。

除此之外,DeepSeek-V3還(huan)利(li)用蒸餾(liu)技術進行(xing)了(le)知識蒸餾(liu)。

圖片來源(yuan):DeepSeek-V3技術文檔

王漢卿對每(mei)經記者解釋(shi)道,知(zhi)(zhi)識蒸餾簡單來講,就(jiu)是(shi)你有一(yi)個(ge)(ge)訓練好的大模型M和一(yi)個(ge)(ge)準備(bei)訓練的小模型m,假設輸入是(shi)x,你需(xu)要(yao)讓m(x)盡可能接近M(x)這個(ge)(ge)結果,就(jiu)像是(shi)已經提前知(zhi)(zhi)道了一(yi)道題的答案,只需(xu)要(yao)根據答案去解題就(jiu)行了,而不(bu)需(xu)要(yao)做繁瑣的試錯流(liu)程。

有(you)業內人士對每經(jing)記者(zhe)補充道,這(zhe)就是一個取長(chang)補短的(de)過(guo)程,通過(guo)學習(xi)優秀大模(mo)型好的(de)部分來提升新模(mo)型的(de)能力。

DeepSeek-V3的技術報告也明確表示,他們提(ti)出了(le)一種創新方法,將推理(li)能(neng)力從長鏈思維(Chain-of-Thought,CoT)模型(DeepSeek R1)中提(ti)取出來,并轉移(yi)到標準的大型語言(yan)模型(DeepSeek-V3)。這一流程巧妙地(di)將R1的驗證和(he)反思模式融合到DeepSeek-V3中,顯著提(ti)高了(le)其推理(li)性(xing)能(neng)。同時,還保持對DeepSeek-V3輸出風格和(he)長度(du)的控制。

蒸餾技術的天花板效應:“學生模型”無法真正超越“教師模型”

如(ru)果蒸餾技(ji)術(shu)這(zhe)么(me)好(hao)用,是否意味著大模型的訓練(lian)要轉向了?

倫敦大學學院(UCL)名譽教授和計算機科學家彼得·本特利在接受每經記者采訪時表示:“這可能會對小機構的(研究)進展產生重大影響,這些機構不像OpenAI或谷歌那樣擁有巨額預算。”

但這并不意味著,蒸餾技術就是一個十全十美的事物。王漢卿向每經記者表示,“我認識的(一線研究人員)基本沒人搞(蒸餾)了。”目(mu)前優化大(da)模型的方(fang)法是(shi)量化,比如降(jiang)精度(du)(du)或是(shi)降(jiang)緩存。DeepSeek-V3的技術報告也提到了使用(yong)FP8混合精度(du)(du)訓練框(kuang)架降(jiang)低進度(du)(du)和通過(guo)壓縮鍵值來降(jiang)低緩存的方(fang)法。

據他解釋,蒸餾技術存在一個巨大缺陷,就是被訓練的模型(即“學生模型”)沒法真正超越“教師模型”。有研究表明,通過(guo)蒸(zheng)餾訓練的模型(xing)總(zong)是(shi)受到其(qi)“教師模型(xing)”能(neng)力的限制(zhi),這會產生一種(zhong)隱性(xing)天花板效應,無(wu)論蒸(zheng)餾過(guo)程多么復雜,都無(wu)法真正(zheng)超越原始模型(xing)的能(neng)力。當考慮到需(xu)要將能(neng)力擴展到新領域(yu)或應對以前從未見(jian)過(guo)的挑戰時(shi),這種(zhong)限制(zhi)就愈發成為問(wen)題。

有業內人士也向每經記者表示,你永遠無法從一本書的厚度里學到10本書的厚度。

上(shang)海(hai)交通大學副教授劉鵬飛(fei)在一(yi)(yi)篇學術(shu)報告中提到:“蒸餾技術(shu)為在數學推理任務中取得顯著性(xing)能提升提供了一(yi)(yi)條誘人的(de)(de)捷(jie)徑(jing)。雖然這種方法帶來(lai)了直(zhi)接且可見的(de)(de)好處,但它掩蓋了一(yi)(yi)系列(lie)深刻(ke)的(de)(de)挑戰。”

表面上,模型可以通過相對簡單的方法快速實現令人印象深刻的性能改進,但它永遠無法超越原始模型的能力。更深層次看,它可能改變研究文化,導致研究者更傾向于捷徑而非根本性解決方案,以及侵蝕問題解決的基本技能。最終,過度依賴蒸餾可能會扼殺AI領域中新穎的、具有變革性的創意。AI模型的真正突破不僅在于它能夠解決復雜問題,而在于背后所拓展的復雜機制。

科學家:依賴合成數據訓練存在風險

盡管(guan)DeepSeek-V3在基準測試中表現良好,但每經記(ji)者在使用過程中發現,DeepSeek-V3竟然聲(sheng)稱自己是(shi)ChatGPT。一(yi)時間,“DeepSeek-V3是(shi)否在使用ChatGPT輸出內容進(jin)行訓(xun)練”的質疑聲(sheng)四起。

圖片(pian)來(lai)源:每經記者(zhe)試用DeepSeek-V3截圖

每經記者采訪到接近幻方人士,詢問“DeepSeek-V3大模型是否有使用ChatGPT輸出內容訓練?如果不是,該模型的內容是如何進行訓練的?上述相關人士對此回復:“網上有很多寫的很好的答案,去搜下就知道了。”

在每經記者的追問下,該人士指出,“不是兩句話能說清楚的……你問的問題太復雜,不是業內做研究的人很難短時間理解。”

南洋理工大學(xue)研究人員王漢(han)卿(qing)則向每經(jing)記者解釋稱,有(you)三種可能性,一是數據來源里包(bao)含ChatGPT(的(de)輸出(chu)內(nei)容),二是使(shi)用了GPT模型做蒸餾,三是在強化學(xue)習流程中(zhong)出(chu)現了錯誤。

本特利在采訪中提到,“對DeepSeek-V3進行實驗的研究人員認為,這種新模型可能根據OpenAI等公司的模型輸出進行了訓練。這可能是使用所謂的‘無版權’數據的一種簡單方法,但這不是一個好主意。互聯網上越來越多地充斥著‘AI垃圾’——大量AI生成的文本和圖像(以及很快的視頻)質量很差。研究表明,如果繼續在其他AI的輸出上訓練AI,結果可能是模型崩潰——AI會與現實失去聯系,并繼續輸出質量差、相似的內容。

他對每經記者強調,“確保高質量AI的唯一方法是,為其提供人類的高質量內容,例如人類編寫的真實文本、人類繪制或拍攝的真實圖像、人類錄制或創作的真實音頻。如果想讓AI理解我們的世界,數據需要來自真實的物理世界。否則,AI就會開始胡思亂想。”

免責聲明(ming):本(ben)文內(nei)容與數據(ju)僅供參考,不構成投資(zi)建(jian)議(yi),使用前(qian)請核實。據(ju)此(ci)操作,風(feng)險自擔。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿(gao)酬。如您(nin)不希望作品(pin)出(chu)現在本站,可聯系我(wo)們要求撤(che)下您(nin)的(de)作品(pin)。

數據(ju) DeepSeek 大模型

歡(huan)迎關注每日經(jing)濟新聞APP

每經經濟新聞官方APP

0

0