暖暖视频在线观看日本/国产成人精品a视频一区/精人妻无码一区二区三区/成在线人免费视频/17c一起草

每日經濟新聞
今日報紙

每經網首頁 > 今日報紙 > 正文

多家頭部公司老總詳解算力“軍備競賽”規模之爭

每日經(jing)濟新聞 2025-09-09 20:45:07

每經記者|張蕊    每經編輯|陳旭    

算(suan)力的“軍備競賽”正日(ri)趨(qu)白熱化(hua)。特斯拉、微軟等(deng)巨(ju)頭(tou)正把GPU(圖形(xing)處理器)堆成山,其(qi)中馬斯克旗(qi)下(xia)人工智能公司(si)xAI據稱已經搭建起20萬(wan)卡集群。

不(bu)久(jiu)前(qian),OpenAI聯合創始人、首席執(zhi)行官奧特曼在(zai)社交平臺上(shang)預告,公司到年底前(qian)將上(shang)線超過100萬張GPU,更直(zhi)言(yan)希望在(zai)這個(ge)數量規模(mo)上(shang)再擴容100倍(bei)。隨后,馬(ma)斯克揚言(yan),5年內,xAI要部(bu)署到5000萬張H100GPU的等效算力。

對此,有(you)業內(nei)人士(shi)對《每日經濟新聞》記者表示,目前,國內(nei)已出現兩萬(wan)/三(san)萬(wan)卡的國產智(zhi)算集(ji)群,未來(lai)幾年,模型訓練對萬(wan)卡到(dao)(dao)十萬(wan)卡級別仍有(you)需求,但當前的大模型訓練,還不需要單個智(zhi)算集(ji)群達到(dao)(dao)數十萬(wan)/百萬(wan)卡規(gui)模。該業內(nei)人士(shi)斷言“3年內(nei)單集(ji)群不太可能到(dao)(dao)30萬(wan)卡”。

一邊(bian)是美(mei)國企(qi)業(ye)號稱年(nian)底前要上線百萬(wan)卡(ka)集群(qun),一邊(bian)是國內20萬(wan)卡(ka)、30萬(wan)卡(ka)集群(qun)尚無用武之地,這背(bei)后是何(he)原因?

“無限堆(dui)卡”這條路能否一直(zhi)走(zou)下去?十(shi)萬(wan)卡、百萬(wan)卡乃至更(geng)大規模的(de)算力集群(qun)是(shi)否真的(de)需要(yao)?

新華社圖

圍繞這一(yi)系列焦點(dian)問題,記者日前(qian)深(shen)入采訪了多位頭部(bu)企業(ye)(ye)的(de)老(lao)總和(he)業(ye)(ye)內專家(jia),試(shi)圖理(li)出一(yi)個清(qing)晰的(de)脈絡。

追“卡”之因:規模定律下的“軍備競賽”

所(suo)謂萬卡(ka)集群(qun),就是(shi)由超過(guo)1萬張加速(su)卡(ka)[如(ru)GPU、TPU(張量處理器)或(huo)專用(yong)AI(人工智能(neng))芯(xin)片]組成的高性能(neng)計算系(xi)統(tong)。

摩(mo)爾(er)線程AI Infra總監陳志對《每日經濟新聞》記(ji)者表示,算力是(shi)(shi)實實在在的,萬卡解決的是(shi)(shi)訓(xun)練本身的問題——訓(xun)練大模型需要(yao)巨(ju)量的算力,單卡解決不(bu)了。

博大數(shu)(shu)據(ju)(ju)CEO張永健對記者表示,Scaling Law(規模定(ding)律(lv))的驅動,是追求萬卡甚至十萬卡集群(qun)最核心的技術(shu)原因(yin)。在AI領域(yu),尤其是大語言模型(xing),已(yi)經反復驗證(zheng)了一個規律(lv):模型(xing)的性能與模型(xing)參(can)數(shu)(shu)量(liang)、訓練(lian)數(shu)(shu)據(ju)(ju)量(liang)以(yi)及投(tou)入(ru)的計算(suan)量(liang)三個因(yin)素(su)成正比(bi)。要訓練(lian)出更強大、具備涌現能力(li)的千億(yi)甚至萬億(yi)參(can)數(shu)(shu)模型(xing),就必(bi)須投(tou)入(ru)海(hai)量(liang)的計算(suan)資源。

張永(yong)健舉(ju)例說,從GPT-3到GPT-4的(de)性(xing)能飛躍,背后(hou)是計算量的(de)指數級增(zeng)長。而萬卡集群正是實現這種計算量級投入的(de)物理載體。

多位(wei)受(shou)訪者坦言,大模型(xing)領域的競(jing)(jing)爭如(ru)同“軍備競(jing)(jing)賽”。誰能更快地訓練出更優的模型(xing),誰就能搶占市場(chang)先機,定義技(ji)術標準,構建生態壁壘。

張永健說,一個(ge)原本需要(yao)6個(ge)月的(de)訓(xun)練任(ren)務(wu),如果通(tong)過萬卡集群(qun)能(neng)縮短到(dao)1個(ge)月甚至更短時間(jian),這(zhe)種迭(die)代速度帶(dai)來的(de)優勢是顛(dian)覆性的(de)。

中國電信研究(jiu)院戰略發(fa)展(zhan)研究(jiu)所(suo)(suo)所(suo)(suo)長(chang)饒少陽對記者(zhe)表示,現在,大模型更多從(cong)“預(yu)訓練(lian)”轉向“后訓練(lian)”,并大量采(cai)用強(qiang)化學習、思維鏈等(deng)方(fang)式,帶動算(suan)力(li)(li)需求(qiu)倍速增長(chang)。另外,除了模型訓練(lian)外還(huan)有大量推(tui)理(li)需求(qiu),比(bi)如平(ping)時用豆(dou)包、DeepSeek等(deng),這同樣需要消耗大量算(suan)力(li)(li)。隨著模型推(tui)理(li)需求(qiu)爆發(fa)、智(zhi)能體規模落(luo)地,未來(lai)推(tui)理(li)將成為(wei)智(zhi)算(suan)需求(qiu)增長(chang)的主力(li)(li),訓練(lian)算(suan)力(li)(li)也將同步增長(chang)。

據張永健介紹(shao),目(mu)前,需要(yao)萬(wan)卡(ka)集(ji)群服務的(de)用戶(hu)主要(yao)集(ji)中在頭部互(hu)聯網與云計算(suan)公司(si)、金融科技巨頭、自(zi)動駕駛(shi)企業以及生物制藥(yao)與生命科學研(yan)究機構等幾(ji)個領域。

張永健舉例稱,類似生物(wu)制藥和生命科學(xue)領域進(jin)行(xing)蛋白(bai)質結構預測、藥物(wu)分子篩選等研究,這(zhe)些復雜的科學(xue)計算(suan)任務借助(zhu)大算(suan)力(li)能顯著加速研發(fa)進(jin)程。

饒少(shao)陽表(biao)示,目前,國(guo)(guo)(guo)內(nei)已出現兩(liang)萬(wan)/三萬(wan)卡(ka)的(de)國(guo)(guo)(guo)產智(zhi)算集(ji)群(qun),國(guo)(guo)(guo)外的(de)30萬(wan)、50萬(wan)甚至100萬(wan)卡(ka)集(ji)群(qun)更多(duo)是宣傳。萬(wan)卡(ka)級(ji)以(yi)上規模(mo)智(zhi)算集(ji)群(qun)主(zhu)要用于大規模(mo)模(mo)型訓練(lian),而(er)當前的(de)大模(mo)型訓練(lian)還不需要單(dan)個(ge)智(zhi)算集(ji)群(qun)達到數(shu)十(shi)萬(wan)/百萬(wan)卡(ka)規模(mo)。“因為根(gen)本沒有那么(me)多(duo)數(shu)據,模(mo)型參(can)數(shu)也不太可能突然增長(chang)。”饒少(shao)陽表(biao)示,未來幾(ji)年,大模(mo)型訓練(lian)對萬(wan)卡(ka)到十(shi)萬(wan)卡(ka)級(ji)別仍有需求(qiu),3年以(yi)內(nei)單(dan)集(ji)群(qun)不太可能到30萬(wan)卡(ka)的(de)規模(mo)。

陳志也(ye)認為(wei),萬(wan)億參數(shu)級別模型基本需要(yao)大幾千卡甚至萬(wan)卡。國外頭部公司已做到10萬(wan)卡、20萬(wan)卡規模,國內(nei)還沒到這個水(shui)平,但今年也(ye)可能出(chu)現10萬(wan)卡集(ji)群,這是趨勢。因為(wei)模型的(de)發(fa)布要(yao)搶時間,卡越(yue)多(duo)訓練(lian)的(de)時間就越(yue)短。

筑“群”之困:系統穩定與網絡瓶頸

盡管基于不(bu)(bu)同(tong)的軟硬(ying)件水平,各家智算中(zhong)心(xin)(xin)成本(ben)不(bu)(bu)同(tong),但據業內粗略計算,構建和運營一(yi)個萬卡級(ji)別的智算中(zhong)心(xin)(xin)成本(ben)驚人——至少在20億元(yuan)以上。

“其中(zhong)硬件采(cai)購(gou)成本占比(bi)最大(da),通常高達60%~80%,而(er)GPU服務器本身占據了(le)絕大(da)部分。”張永健說,以1萬張主(zhu)流訓練GPU為例,僅硬件采(cai)購(gou)成本就可(ke)能超(chao)過10億(yi)元。

如此大規(gui)模的(de)投入(ru),是否就能“絲滑”解決算(suan)力焦慮(lv)?對此,多位受訪者均(jun)表(biao)示,將(jiang)集群規(gui)模從(cong)幾(ji)百幾(ji)千卡擴展到萬(wan)卡級別,絕非簡單堆砌硬件。這是一個復(fu)雜的(de)系統工程,會(hui)遇到一系列非線性挑戰。

張永健認為,最(zui)大的(de)技術難點是“系統級(ji)的(de)穩定性和性能一(yi)(yi)致性”。在萬卡(ka)(ka)集群(qun)中(zhong),成千上萬個(ge)組(zu)件[GPU、CPU(中(zhong)央處理器(qi))、網(wang)卡(ka)(ka)、內存、線纜(lan)]中(zhong)任何一(yi)(yi)個(ge)出現問題,都(dou)可能引發連鎖反(fan)應。確保整(zheng)個(ge)系統作為一(yi)(yi)個(ge)“超(chao)級(ji)計(ji)算機(ji)”高效穩定運(yun)行,是最(zui)艱巨的(de)挑戰。

用浪潮數據董事長張東(dong)的話說,不管是(shi)(shi)萬(wan)卡還是(shi)(shi)十萬(wan)卡,關(guan)鍵是(shi)(shi)能不能真(zhen)的把這些卡當成一個系(xi)統(tong)跑起來。

而眼下關鍵(jian)的掣肘因素就是網(wang)絡互聯能力——從百卡(ka)擴展到萬卡(ka),節點之間(jian)需(xu)要實現網(wang)狀、高速(su)、低(di)延(yan)遲互聯,既包括(kuo)卡(ka)之間(jian)的互聯,也包括(kuo)機器之間(jian)的互聯。

萬(wan)卡間(jian)的(de)互(hu)聯技(ji)術是(shi)一(yi)(yi)個(ge)很(hen)大(da)的(de)挑戰(zhan)。張(zhang)東向(xiang)《每(mei)日經濟新聞》記者解釋稱(cheng),目前,英偉達專供中(zhong)國的(de)芯(xin)片(pian),主要(yao)(yao)就是(shi)限制了(le)其互(hu)聯能力。就像人類工作(zuo)時(shi)需多人協作(zuo),芯(xin)片(pian)工作(zuo)時(shi)也需要(yao)(yao)進行(xing)數據交(jiao)互(hu),一(yi)(yi)張(zhang)芯(xin)片(pian)處(chu)理(li)完(wan)的(de)數據要(yao)(yao)傳(chuan)遞給(gei)另一(yi)(yi)張(zhang)芯(xin)片(pian)進行(xing)處(chu)理(li)。“本來(lai)咱倆面對面,我(wo)(wo)寫完(wan)一(yi)(yi)張(zhang)紙就拿一(yi)(yi)張(zhang)給(gei)你(ni),現在(zai)一(yi)(yi)下變(bian)得隔了(le)100米,還加了(le)一(yi)(yi)個(ge)很(hen)慢的(de)傳(chuan)送(song)帶,我(wo)(wo)寫完(wan)了(le)放傳(chuan)送(song)帶上,隔兩分鐘你(ni)才(cai)能收到,這樣效率自然就下降(jiang)了(le)。”

張永健說,在萬卡規模(mo)下,構建一個(ge)無阻塞、高(gao)帶(dai)寬、低(di)延遲(chi)的(de)網絡架構,設計、部署(shu)和運維的(de)復(fu)雜(za)度呈(cheng)指(zhi)數級增長。任(ren)何(he)一個(ge)交(jiao)換機、光模(mo)塊或線纜出現微小抖動,都可(ke)能導致大規模(mo)的(de)通信(xin)風暴(bao),從(cong)而拖垮整個(ge)訓練任(ren)務。

不(bu)僅如此(ci),“到了一定規模以后,機(ji)器的故障率就會(hui)很高,1萬卡(ka)的機(ji)器能連(lian)續跑1個小(xiao)時,1張卡(ka)都不(bu)出(chu)問題,是很難的。”張東說。

有研究(jiu)指出(chu),一個十萬卡集群,其故障(zhang)(zhang)間隔可能(neng)縮短(duan)到每半小時(shi)一次。英偉(wei)達(da)創始人黃仁勛也曾(ceng)提(ti)到,10萬張GPU的平均無故障(zhang)(zhang)時(shi)間將縮短(duan)至分(fen)鐘級。

在張東看來,一(yi)方面是芯片本(ben)身的能(neng)力(li)有限(xian),另一(yi)方面,隨著(zhu)卡的數(shu)量不斷增加(jia),軟件的線性比(即軟件能(neng)否完(wan)美利(li)用更(geng)多硬件資(zi)源的比率,越(yue)(yue)接近1越(yue)(yue)好)會下(xia)降,這(zhe)意味(wei)著(zhu)到某個點(dian)以后若再增加(jia)卡,性能(neng)并(bing)不會上(shang)升,還有可能(neng)下(xia)降。

而一次動(dong)輒(zhe)耗(hao)時(shi)數周甚至數月的(de)訓(xun)練任務,如果中(zhong)途頻繁(fan)失敗且無(wu)(wu)法(fa)快速恢復,那么再高的(de)理論算力(li)也毫無(wu)(wu)意義(yi),用戶獲得的(de)有(you)效算力(li)將大打(da)折扣。

除了穩定性,萬(wan)卡集群還面(mian)臨存(cun)儲性能瓶(ping)頸、軟件棧復雜性等(deng)方面(mian)的挑(tiao)戰。

饒少陽坦(tan)言(yan),受(shou)限于(yu)GPU內存訪問性能(neng)、網絡傳輸效率(lv)、算法優化(hua)程度、故障(zhang)恢復能(neng)力等因素,想把(ba)萬(wan)卡(ka)集(ji)群的(de)(de)(de)性能(neng)全部發(fa)揮到極致是(shi)一件極其復雜的(de)(de)(de)事情。因此,目前萬(wan)卡(ka)集(ji)群的(de)(de)(de)算力利(li)用率(lv)并不高,行(xing)業領先者的(de)(de)(de)利(li)用率(lv)可達(da)50%以上(shang)。

張永健還提(ti)到,一個萬卡集(ji)群的(de)峰值功耗高(gao)達數十(shi)兆(zhao)瓦(wa)(1兆(zhao)瓦(wa)=1000千(qian)瓦(wa),1小(xiao)時1兆(zhao)瓦(wa)即1000度電),這對數據中(zhong)心的(de)供配電和冷卻系統考驗巨大(da)。

多位受訪者表示,一個萬卡(ka)集群的智(zhi)算中心(xin)與傳統數據中心(xin)相比,能耗成倍(bei)增長,甚至達(da)到十倍(bei)級。

破“局”之策:超節點與低精度計算發力

盡管用萬(wan)卡集群訓練模型面(mian)(mian)臨不少挑(tiao)戰,但記者在采訪中了解到(dao),目前,業內正積極探索在計(ji)算、網絡(luo)、存(cun)儲、能耗等(deng)方面(mian)(mian)進行優化(hua)。

8月(yue)23日,在2025中國(guo)算(suan)(suan)力大會(hui)(以(yi)下簡(jian)稱算(suan)(suan)力大會(hui))現(xian)場,來(lai)自運營商、互(hu)(hu)聯網(wang)企業(ye)、芯片廠商、服務器制造商及科(ke)研院所等領域的數(shu)十家(jia)國(guo)內產學研用核心單位,共(gong)同宣布開啟智算(suan)(suan)開放互(hu)(hu)聯OISA(全向智感互(hu)(hu)聯架(jia)構)生態共(gong)建。

聯想中國區基礎設施業(ye)務(wu)群服務(wu)器事業(ye)部總(zong)經理周韜(tao)對《每(mei)日經濟新聞》記(ji)者表(biao)示,其實OISA就是卡間互聯的一套技術(shu)。

在算力(li)大會算力(li)成果(guo)展(zhan)示區的(de)中國(guo)移動展(zhan)位,記者看到了帶有OISA標(biao)識的(de)“國(guo)芯國(guo)連”超節點AI算力(li)集群(qun)的(de)機(ji)柜。山西移動政(zheng)企能力(li)運(yun)營總監呂樂向記者介紹稱,以往一個機(ji)柜最多放三四臺服(fu)(fu)務器(qi),而這(zhe)個超節點機(ji)柜能放16臺服(fu)(fu)務器(qi),每臺服(fu)(fu)務器(qi)里有兩(liang)顆CPU、四張國(guo)產GPU,一共64張GPU卡(AI國(guo)產芯片)。

呂(lv)樂進一步(bu)表示,以前兩(liang)張(zhang)卡部署在(zai)不同(tong)的(de)服務器里(li),大家認為1+1=2,但盡管上下相隔只有幾厘米,轉(zhuan)發產(chan)生的(de)時延往往也會(hui)使整(zheng)個(ge)計(ji)算(suan)效率損失20%以上。“通過(guo)OISA協(xie)議把兩(liang)張(zhang)GPU芯(xin)片級直連后,通信延遲降低產(chan)生的(de)效果才(cai)大于2,實際計(ji)算(suan)效率是(shi)單(dan)卡的(de)240%。”

問(wen)及(ji)不(bu)同(tong)廠家的(de)GPU是否可(ke)以混插,呂樂表(biao)示,過去不(bu)行,不(bu)過現(xian)在通過統一(yi) OISA協(xie)議,可(ke)以把(ba)不(bu)同(tong)廠家的(de)接口、PCle(高速串行總線標(biao)準)、CXL(高速互聯協(xie)議)底層協(xie)議全部打通,包括昆侖(lun)芯、摩爾線程等的(de)芯片都可(ke)以集(ji)成到(dao)同(tong)一(yi)機柜里,實現(xian)高密度、異構部署(shu)。

饒少陽表示,所謂超節(jie)點(dian)就(jiu)是(shi)通過高速互聯(lian)(lian)技術(shu),把(ba)(ba)幾(ji)十張(zhang)(zhang)甚至幾(ji)百張(zhang)(zhang)卡(ka)(ka)連(lian)接起來集成在一(yi)個(ge)大機柜里,比(bi)如華為昇(sheng)騰384超節(jie)點(dian)就(jiu)是(shi)把(ba)(ba)384張(zhang)(zhang)卡(ka)(ka)通過高速互聯(lian)(lian)“拼成”一(yi)臺(tai)超級服(fu)務(wu)器(qi),整體性能可對標(biao)甚至超越(yue)GB200NVL72系(xi)統(tong)(英(ying)偉達(da)的多節(jie)點(dian)液冷機架級擴展系(xi)統(tong))。

呂樂表示,超(chao)節(jie)點(dian)是萬(wan)卡(ka)集群的基礎(chu)。如果在一個(ge)(ge)機柜里都沒(mei)法做到高效(xiao)互聯,就談不上把1萬(wan)張卡(ka)連成一個(ge)(ge)整體(ti)。傳(chuan)統分(fen)散部(bu)署時(shi),1萬(wan)張卡(ka)加起來只能發揮(hui)60% ~70%的算力,而現在通過超(chao)節(jie)點(dian)內高效(xiao)互聯+超(chao)節(jie)點(dian)間高速網絡,計算綜(zong)合效(xiao)率有望大幅提升(sheng)。

除(chu)了超(chao)節點技(ji)(ji)術,業內正在通過(guo)低精度計(ji)算(suan)來優化計(ji)算(suan)過(guo)程。其中,FP8(8位浮點數)技(ji)(ji)術逐漸嶄(zhan)露頭角。

陳志提到,最早訓練(lian)是FP32(32位(wei)浮點數(shu)),慢慢轉向混合精度訓練(lian)FP32+FP16(16位(wei)浮點數(shu)),再到FP8,數(shu)據位(wei)寬逐漸(jian)變小,因(yin)此可實現(xian)更高(gao)的計算效率和更低的內(nei)存(cun)占(zhan)用,進而降低算力(li)成本。

打個比(bi)方,FP32、FP16和FP8就分別類似于游標卡(ka)尺、普通直(zhi)尺和粗略的刻度尺,三(san)者精(jing)度由(you)高到低,內存占用從大(da)到小,計算速(su)(su)度從慢到快(kuai),在保證模(mo)型(xing)性能和效果的前提下,選擇盡可能低的精(jing)度,并結合軟(ruan)硬協(xie)同、算法優化等技術創新(xin),可以換取速(su)(su)度、節能和成本上的巨(ju)大(da)優勢。

在陳志看來(lai),現在大(da)模(mo)型(xing)對(dui)精度(du)容忍度(du)更高,FP8有(you)(you)很大(da)機會。除了(le)用(yong)低(di)精度(du)方法提升總算(suan)力,還要提升算(suan)力的整(zheng)(zheng)體利(li)用(yong)率。利(li)用(yong)率=單卡(ka)能(neng)力×萬卡(ka)能(neng)力×節點能(neng)力×集(ji)群(qun)(qun)能(neng)力×集(ji)群(qun)(qun)穩定性(xing)。“所有(you)(you)這(zhe)些都在一(yi)個(ge)工廠里進(jin)行優化(hua),也就(jiu)是我們提的AI工廠概念,整(zheng)(zheng)體優化(hua)后(hou),假如最后(hou)達到(dao)60%的利(li)用(yong)率,而別人只有(you)(you)30%,那就(jiu)相當于多了(le)一(yi)倍的卡(ka),或者達到(dao)同(tong)樣的訓練時間只用(yong)一(yi)半卡(ka)。”

降“耗”之路:液冷與綠電直連顯效

張永(yong)健告訴記者(zhe),一個(ge)萬(wan)卡(ka)集群(qun)的成(cheng)本(ben)中,電(dian)力與運維成(cheng)本(ben)大(da)約占20%。其(qi)中,電(dian)力成(cheng)本(ben)(包括IT設備用電(dian)和冷(leng)卻系(xi)統(tong)用電(dian))是持續性的巨大(da)開銷。一個(ge)10萬(wan)卡(ka)的集群(qun),年(nian)耗電(dian)量可(ke)達1.59太瓦(wa)時(shi)(等于10億千瓦(wa)時(shi)即10億度電(dian)),電(dian)費超過1億美元。在(zai)運營成(cheng)本(ben)中,冷(leng)卻系(xi)統(tong)的能耗是數據中心最大(da)的支(zhi)出之一,有時(shi)能占到總(zong)運營成(cheng)本(ben)的50%。

華為數據中心能源副總(zong)裁(cai)張(zhang)帆告訴《每日經濟新(xin)聞(wen)》記者(zhe),集群(qun)規模大了(le)之后,功(gong)率密度變大,單(dan)個芯片散熱量(liang)很大,超過一(yi)定程度風(feng)就(jiu)帶不走熱量(liang),就(jiu)需(xu)要有液冷方式(shi)。

周韜告(gao)訴(su)記者(zhe),目前(qian)(qian),液(ye)冷主要有兩種方式,冷板式液(ye)冷只(zhi)能(neng)冷卻GPU或CPU,浸(jin)沒式液(ye)冷可以把整個機器所有部件(jian)都浸(jin)沒,散(san)熱(re)效(xiao)率(lv)比前(qian)(qian)者(zhe)提高30%~40%。

“目前(qian),冷板(ban)式(shi)液冷其(qi)實可(ke)以滿足散(san)熱需(xu)求(qiu),成(cheng)本也(ye)更(geng)(geng)低(di),在(zai)維護、生產工(gong)藝、后續運維方面都(dou)更(geng)(geng)簡單。”周韜說,但(dan)浸沒式(shi)效率更(geng)(geng)高(gao),未來GPU功(gong)耗再提升時,冷板(ban)可(ke)能也(ye)不夠,就像以前(qian)風冷夠用,后來功(gong)耗增(zeng)大就不行了。當前(qian),浸沒式(shi)是更(geng)(geng)具前(qian)瞻性的技術。

在(zai)算力大(da)會(hui)上的聯想展(zhan)位,記者看到一臺相(xiang)變(bian)浸沒式液冷概念機。聯想中國基礎設施業(ye)務(wu)群市場部總監級技術顧問(wen)李鑫告訴記者,當冷卻液達到60攝氏度(du)時(shi)就會(hui)變(bian)為氣體將熱量帶走,系(xi)統(tong)PUE(電能(neng)利用效率)低至1.035。

博大(da)(da)數據是國內(nei)最早大(da)(da)規(gui)模部署單相浸沒(mei)式(shi)(shi)液(ye)(ye)(ye)冷(leng)和(he)冷(leng)板式(shi)(shi)液(ye)(ye)(ye)冷(leng)的(de)廠商之一。張永健說,公司(si)采用液(ye)(ye)(ye)冷(leng)的(de)智(zhi)算中(zhong)(zhong)心(xin)PUE可以(yi)控制在1.15以(yi)下,部分甚(shen)至可以(yi)達到(dao)1.04,遠優于傳統風冷(leng)數據中(zhong)(zhong)心(xin)1.4~1.5的(de)水平。

有(you)業(ye)內觀點(dian)認為,存算(suan)一體的芯片,有(you)望能從根本上(shang)(shang)緩解(jie)大規模集(ji)群(qun)的能耗(hao)和(he)散熱問題(ti)。張(zhang)永健說,由于(yu)當(dang)前(qian)數(shu)(shu)(shu)據需要在存儲單元和(he)計算(suan)單元之間頻繁搬運,耗(hao)時(shi)耗(hao)能。存算(suan)一體通過(guo)在存儲器(qi)內部完成計算(suan),可極(ji)大減(jian)少數(shu)(shu)(shu)據搬運,理論上(shang)(shang)能帶來(lai)(lai)幾個數(shu)(shu)(shu)量(liang)級的能效提升。對(dui)于(yu)萬卡集(ji)群(qun)這種數(shu)(shu)(shu)據搬運極(ji)為密集(ji)的場景(jing)來(lai)(lai)說,吸引力巨大。

多位受訪者(zhe)都(dou)認為,其商業(ye)化落地還十分遙遠。張(zhang)永(yong)健(jian)說,從技(ji)術成熟(shu)度來說,它對新型(xing)存儲介質、電路(lu)設計、制造工藝(yi)都(dou)提出了極高要求,目前仍處于(yu)實驗室和早期原型(xing)階段。與(yu)此同時(shi),現有軟件生態(tai)無法直接復用(yong),應用(yong)場景上存算一體能否高效處理通用(yong)的(de)大模型(xing)訓練任(ren)務,仍是一個未(wei)知(zhi)數。

在能源供(gong)應方面,目前,算力電力協(xie)同(tong)已(yi)經成(cheng)為(wei)多部門政(zheng)策關注的焦點。目前,業內通過源-網-荷-儲(chu)(chu)多元(yuan)互(hu)動形成(cheng)了綠(lv)電直連、源網荷儲(chu)(chu)一(yi)體(ti)化、算力負載轉移、儲(chu)(chu)能技術(shu)、綠(lv)電綠(lv)證交易、虛擬電廠、算力賦(fu)能電力等協(xie)同(tong)模式,實現綠(lv)電就地消納。

中(zhong)國信通院云(yun)大所(suo)數據(ju)中(zhong)心部副主任王月認為(wei),算力中(zhong)心綠電直連(lian),有望成(cheng)為(wei)業內近期發展的重點。

綠(lv)電直連就是指光伏、風電等綠(lv)色電源項目(mu),通(tong)過專(zhuan)線(xian)直接輸送給(gei)特定用戶,不再強制要求全額上(shang)網或僅(jin)通(tong)過電網企(qi)業統購統銷。

秦云(yun)基礎園區事業部總經(jing)理許俊對記(ji)者(zhe)表示,其智算中心的單機柜功耗(hao)可(ke)(ke)以(yi)做(zuo)到42千瓦(wa),使用(yong)全風冷(風冷的散熱極(ji)限(xian)是(shi)單機柜60千瓦(wa))散熱。由于采用(yong)了(le)綠(lv)電直連,PUE這一(yi)指(zhi)標可(ke)(ke)以(yi)說已經(jing)失效了(le),比如利(li)用(yong)氟泵空調做(zuo)一(yi)些余熱回收(shou)給辦公(gong)室供暖,“PUE可(ke)(ke)以(yi)為負”。

謀“遠”之思:單芯躍升與軟硬件協同

綜(zong)合(he)來看,萬卡集(ji)群(qun)甚(shen)至十萬卡集(ji)群(qun)是否真能(neng)(neng)解決算力焦慮(lv)?絕大多數(shu)受訪者認為,單靠堆卡并不能(neng)(neng)完全解決。

張永健認為,算力焦慮的(de)本(ben)質是人類對AI能(neng)力的(de)無盡追求與物(wu)理世界資源限制之間的(de)矛盾(dun)。今(jin)天可(ke)能(neng)覺得萬卡很龐大,但明(ming)天為了(le)訓練更復(fu)雜的(de)模型(xing),又或許(xu)會需要百萬卡集群(qun)。需求總是在被(bei)滿足的(de)同時,又被(bei)激(ji)發到新高度(du)。

問(wen)及下一代算力(li)基礎設施的突破方(fang)向(xiang),張東(dong)、周(zhou)韜、北大人工(gong)智(zhi)能(neng)研究(jiu)院研究(jiu)員(yuan)孫仲等多(duo)位受訪者認為(wei),首先(xian)還(huan)是應該從硬(ying)件去(qu)突破。換(huan)句話說,在(zai)AI算力(li)競賽遠未結束的情況下,還(huan)是要提高單芯片(pian)的能(neng)力(li)。

孫仲對(dui)《每日(ri)經濟新聞》記者(zhe)表示,做大模(mo)型必須靠堆卡只是現(xian)狀,不(bu)是理論上的(de)必然。如(ru)果未來有新芯片(pian)架構(gou),效率比(bi)GPU高幾個(ge)數量級,那時就不(bu)用萬卡了,可(ke)能百(bai)卡甚(shen)至更少(shao)的(de)計算(suan)卡就夠了。

張永健認(ren)為,未(wei)來,超(chao)算中心將(jiang)不(bu)再是(shi)單一的GPU集群,而是(shi)CPU、GPU以(yi)及各種(zhong)專用加(jia)速器、存算一體(ti)芯片(pian)甚(shen)至是(shi)光(guang)子計算芯片(pian)等多種(zhong)計算單元深度(du)融合的異構系統。挑戰(zhan)在于如何(he)通過統一的軟件(jian)接口,將(jiang)不(bu)同的任務無縫調度(du)到(dao)最(zui)適合它的硬(ying)件(jian)上。

在互聯技術方(fang)面,張永健認為(wei),隨著(zhu)帶(dai)寬需求的(de)急劇增(zeng)加,光互聯將(jiang)(jiang)從數據中心內部的(de)交(jiao)換機互聯進一(yi)步下沉(chen)到芯(xin)片(pian)與芯(xin)片(pian)之間。這將(jiang)(jiang)徹底(di)消(xiao)除電信(xin)號傳輸的(de)瓶頸(jing),實現更(geng)低延遲、更(geng)高帶(dai)寬的(de)連接,為(wei)構(gou)建更(geng)大規模的(de)計算(suan)集群掃清(qing)障礙(ai)。

多位受(shou)訪(fang)者同樣強調(diao)了軟(ruan)件能(neng)力的(de)重(zhong)要(yao)性(xing)。張永健認(ren)為,當大(da)家(jia)都能(neng)買到(dao)或(huo)建(jian)起萬卡集群時,如何比(bi)對(dui)手用得更好(hao)更省更高效,就成了決(jue)勝關鍵(jian)。未來競爭的(de)焦點(dian)將集中在:更高效的(de)AI框架和編譯(yi)器;更智能(neng)的(de)調(diao)度算法;更先進(jin)的(de)模(mo)型壓縮與量化(hua)技(ji)術;數據處理與I/O(輸入/輸出)優化(hua)。

呂樂(le)認為,未來(lai)不是簡單(dan)堆(dui)20萬、30萬張卡,而是把全國30多(duo)個(ge)省份的算力(li)、存(cun)力(li)、運力(li)統(tong)一(yi)調(diao)度起來(lai),就像高(gao)鐵調(diao)度一(yi)樣(yang),哪(na)里任(ren)務多(duo)就擴(kuo)哪(na)里,哪(na)里有空(kong)余(yu)就調(diao)劑過(guo)去(qu),實現算力(li)“像水電(dian)一(yi)樣(yang)”彈性流(liu)通(tong)。

張永(yong)健(jian)還提到(dao),軟硬件協同設計(ji)(ji)非常(chang)重要,未來(lai)AI芯片和系(xi)統在設計(ji)(ji)之初,就會與上層的AI算(suan)(suan)法(fa)和框架進行協同設計(ji)(ji)。硬件為特(te)定算(suan)(suan)法(fa)優(you)化,算(suan)(suan)法(fa)也充分利用硬件的特(te)性,實現1+1﹥2的效果。

此外,探索更高(gao)效的(de)訓(xun)練方法,如(ru)自監督學習、遷(qian)移(yi)學習、稀(xi)疏(shu)化訓(xun)練等,減少對(dui)海(hai)量標注(zhu)數據的(de)依賴和對(dui)蠻力計(ji)算(suan)的(de)投入,可以從源頭(tou)上降低(di)算(suan)力需求(qiu)。

封面圖片來源:新華社圖

如需轉載請與《每日經濟新聞》報社聯系。
未(wei)經《每日經濟新(xin)聞》報社授權,嚴禁轉載或鏡(jing)像,違者(zhe)必究。

讀者熱線:4008890008

特別提(ti)醒:如果我們使用了您的圖片,請作者與本站聯系索(suo)取(qu)稿酬。如您不希望作(zuo)(zuo)品出(chu)現在本站,可聯(lian)系我們要(yao)求撤(che)下(xia)您的作(zuo)(zuo)品。

算力 模型

歡迎關注(zhu)每日經濟新聞APP

每經經濟新聞官方APP

1

0