每(mei)日經濟(ji)新聞 2024-11-11 22:21:14
每(mei)經記者(zhe)|王郁彪 楊昕(xin)怡 每(mei)經編輯|張海妮
字節跳動、快(kuai)手,兩(liang)位(wei)短視頻巨頭在(zai)AI領(ling)域迎來了正面(mian)交鋒。
11月8日,字(zi)節(jie)跳動(dong)(dong)旗下的(de)AI內容(rong)平臺(tai)(tai)即(ji)夢AI宣布,由字(zi)節(jie)跳動(dong)(dong)自(zi)研(yan)的(de)視(shi)(shi)頻生成模型(xing)(xing)Seaweed面向平臺(tai)(tai)用(yong)戶正式開放。據字(zi)節(jie)跳動(dong)(dong)方面介紹(shao),本次開放使用(yong)的(de)豆包視(shi)(shi)頻生成模型(xing)(xing)Seaweed是該(gai)款模型(xing)(xing)的(de)標準(zhun)版,僅需(xu)60秒(miao)即(ji)能生成時長(chang)5秒(miao)的(de)高質量(liang)AI視(shi)(shi)頻,領先國(guo)內業(ye)界3至5分(fen)鐘的(de)所(suo)需(xu)生成時間。
《每日經濟新(xin)聞》記(ji)者在對即(ji)夢(meng)、可靈的初代版(ban)本和最新(xin)版(ban)本進行實測時(shi)發現,迭代后,兩款產品在視頻生(sheng)(sheng)成效果(guo)上(shang)均有多方面、不同程度(du)的提升,可靈在空間布局和畫(hua)面細節呈現上(shang)更(geng)為準確,且(qie)對生(sheng)(sheng)成內容效果(guo)的調節更(geng)具靈活(huo)性、便(bian)捷(jie)性;而即(ji)夢(meng)在生(sheng)(sheng)成時(shi)長和視頻風格上(shang)有優勢。

視覺中國
一位(wei)大模型(xing)技(ji)術(shu)人(ren)員向(xiang)記者表示,視頻(pin)生成模型(xing)要實(shi)現生產內容的不同“畫風(feng)”是很難的,“技(ji)術(shu)之外,還主要看數據源的豐富程度”。
短期內完成多次迭代
伴隨字節跳動(dong)自研視(shi)頻生成模型Seaweed 開放使用,國內視(shi)頻生成模型大比拼里最具看點(dian)的(de)一對——即夢、可靈終于正式交(jiao)手。
它們都(dou)(dou)承載著(zhu)理(li)解物理(li)世(shi)界,在衍生(sheng)“真(zhen)實”的同(tong)時(shi)盡可(ke)能放大想象(xiang)的“AI造(zao)夢計劃(hua)”,但對于自身而言,即(ji)夢和(he)可(ke)靈也都(dou)(dou)肩(jian)負字節跳(tiao)動和(he)快手又(you)一番商(shang)業(ye)化前景(jing)開拓的重任。
事實上,即(ji)(ji)夢與(yu)可靈都在短短不到(dao)一年的(de)時(shi)間,完成(cheng)了(le)數次迭(die)代。即(ji)(ji)夢3月底開啟視頻生成(cheng)功能內測,半年后,字節(jie)跳動發(fa)布了(le)豆包模(mo)型家族的(de)兩款(kuan)視頻生成(cheng)模(mo)型Seaweed和Pixeldance,并通(tong)過即(ji)(ji)夢AI、火(huo)山引擎小范(fan)圍(wei)邀測,如今Seaweed面(mian)向(xiang)平臺(tai)用戶正式開放。
工信部信息(xi)通信經濟(ji)專(zhuan)家委(wei)員(yuan)會委(wei)員(yuan)盤和林(lin)向《每日經濟(ji)新聞》記(ji)者表示(shi),即夢使(shi)用的(de)新模型生成(cheng)速度(du)有(you)所提升,給用戶的(de)生成(cheng)體(ti)驗更好了(le),“即夢AI目前在國內生成(cheng)領域,還(huan)是比較領先的(de)”。
可靈在6月“出生(sheng)”后(hou)一(yi)鳴驚人,發(fa)布(bu)(bu)至(zhi)今經歷了(le)十(shi)余次更新,包括發(fa)布(bu)(bu)圖生(sheng)視(shi)頻(pin)功(gong)能(neng)以及(ji)1.5模(mo)型的上(shang)(shang)線等。截(jie)至(zhi)目前,可靈擁有超過360萬用戶,累計生(sheng)成(cheng)3700萬個視(shi)頻(pin),并在近(jin)期正式(shi)上(shang)(shang)架獨立App(應用軟件(jian))。
《每日經濟新聞(wen)》記者選取了OpenAI官方(fang)公布的(de)(de)(de)5條Sora視(shi)(shi)(shi)頻(pin)提示詞(東京街(jie)頭(tou)的(de)(de)(de)女士、太(tai)空人、無人機視(shi)(shi)(shi)角的(de)(de)(de)海岸、3D動畫的(de)(de)(de)小(xiao)怪(guai)物、云端讀書的(de)(de)(de)年輕(qing)人)分別測試即夢和(he)可(ke)靈的(de)(de)(de)初代版本和(he)最新版本,縱向對(dui)比兩個視(shi)(shi)(shi)頻(pin)生(sheng)成模型的(de)(de)(de)視(shi)(shi)(shi)頻(pin)效(xiao)果。
對比即夢(meng)(meng)最初版本和(he)最新版本生產(chan)的(de)視頻效(xiao)果后,記者(zhe)發(fa)現,即夢(meng)(meng)有兩部分(fen)更新較(jiao)為(wei)明(ming)顯:一個是在(zai)動(dong)態(tai)的(de)“人事物”表現上,動(dong)作(zuo)的(de)捕捉(zhuo)和(he)連貫性(xing)均有較(jiao)為(wei)明(ming)顯的(de)提升(sheng);另(ling)一個是畫面風格的(de)差(cha)異化呈現也有比較(jiao)大的(de)進步(bu)。
以(yi)“東京街頭(tou)的(de)(de)女士”為例,初代即(ji)夢塑造的(de)(de)人物(wu)動(dong)作僵硬,特別是在腿部(bu)、腳(jiao)(jiao)部(bu)動(dong)作的(de)(de)捕捉上,整(zheng)體呈現的(de)(de)效果(guo)是模(mo)糊和扭曲的(de)(de)。迭代后的(de)(de)新版即(ji)夢,人物(wu)動(dong)作自然(ran)流(liu)暢(chang),腳(jiao)(jiao)部(bu)動(dong)態(tai)的(de)(de)細節處理更(geng)清晰(xi)、更(geng)符合真實世界的(de)(de)邏輯。
即夢與可靈差異明顯
兩個模(mo)型(xing)在迭代后,生(sheng)成效果都更加穩定,畫質(zhi)也更優,流暢度和(he)細節處(chu)理都更經得起推敲。不過,它們在語義理解、關(guan)鍵(jian)詞捕捉和(he)放大,以及創(chuang)意(yi)想象力和(he)創(chuang)意(yi)相關(guan)性的平(ping)衡上還是有明顯區(qu)別。
橫向對比,將最新版(ban)本的(de)即夢與1.5模型可靈,對5條Sora視頻提(ti)示詞的(de)呈現進行比拼。語義的(de)理解和關鍵(jian)詞的(de)捕捉,讓即夢和可靈的(de)視頻呈現有(you)所不(bu)同。
在(zai)“無(wu)人機(ji)視(shi)角的(de)海岸”視(shi)頻中(zhong),即夢對(dui)提示詞中(zhong)“帶有燈塔的(de)小(xiao)島”進(jin)行(xing)了相對(dui)模糊化的(de)處理,而(er)無(wu)論(lun)是可(ke)靈還是Sora,這一畫面的(de)重點都是“小(xiao)島”。而(er)在(zai)對(dui)“海岸公路”的(de)描述中(zhong),即夢的(de)設置并不符合真實世(shi)界(jie)的(de)邏輯。
在“太(tai)空(kong)(kong)人(ren)”的(de)(de)視(shi)頻效果(guo)上,即夢對描述(shu)中的(de)(de)“冒險(xian)”并未(wei)進行描述(shu),再次生(sheng)成后,手拿咖啡騎(qi)著摩托的(de)(de)太(tai)空(kong)(kong)人(ren)也忽(hu)視(shi)了“冒險(xian)”的(de)(de)設定(ding)。可(ke)靈則通(tong)過人(ren)物的(de)(de)表(biao)情以(yi)及運鏡強調“冒險(xian)”。不(bu)過,即夢和(he)可(ke)靈都相對忽(hu)視(shi)了“電影(ying)預告片”這一(yi)設定(ding),對比(bi)之下Sora的(de)(de)“太(tai)空(kong)(kong)人(ren)”視(shi)頻更有電影(ying)感。
在(zai)“3D動畫的(de)小怪物”視頻生成中,即(ji)夢的(de)小怪物設(she)(she)定與動畫電影(ying)《怪物公司》里的(de)角色“薩(sa)利(li)”幾乎相(xiang)同。而提(ti)(ti)示(shi)詞中有關(guan)小怪物的(de)部(bu)分描述(shu),即(ji)夢的(de)呈現(xian)也相(xiang)對不(bu)甚(shen)準確,比如“短毛”設(she)(she)定的(de)執行。此外,在(zai)藝(yi)術(shu)風(feng)格的(de)呈現(xian)上(shang),提(ti)(ti)示(shi)詞著重強調(diao)了“光照和紋理”,即(ji)夢的(de)執行弱于(yu)可靈(ling)。
而在“東京街頭(tou)的(de)女(nv)(nv)士”視(shi)頻中(zhong)(zhong),即夢在多主體(ti)復(fu)雜交互(hu)的(de)呈現(xian)上,效(xiao)果相對(dui)于可靈(ling),表現(xian)不佳。無論(lun)是對(dui)畫(hua)面(mian)主體(ti)的(de)“女(nv)(nv)士”還(huan)是空間描述上都(dou)相對(dui)準確,但對(dui)畫(hua)面(mian)中(zhong)(zhong)的(de)行(xing)人普遍進(jin)行(xing)了模糊處(chu)理(li),近景中(zhong)(zhong)的(de)行(xing)人則出現(xian)扭曲變形。
不過,即夢AI官方(fang)透露,近期(qi),Seaweed和Pixeldance兩(liang)款視(shi)頻生成模型的(de)Pro版將開放使用。Pro版模型會(hui)對多(duo)主體交(jiao)互以及多(duo)拍動(dong)作連貫性進行優(you)化,同時攻(gong)克多(duo)鏡頭切(qie)換的(de)一致(zhi)性等難題。
在功能與體驗上,經過(guo)數輪迭代后的可(ke)靈(ling),在生成視頻(pin)時,有(you)“創意想象力和創意相關性”參(can)數的調整,因此可(ke)以(yi)進行平衡調整。對(dui)于不希望呈現的內容,可(ke)靈(ling)也可(ke)以(yi)設(she)置,比如模糊、拼貼、變形、動畫等。生成操(cao)作更(geng)靈(ling)活,效果可(ke)調整。
經測(ce)試,即(ji)夢視(shi)頻生成(cheng)時(shi)間(jian)更短,Sora的(de)5條提(ti)示詞的(de)視(shi)頻生成(cheng)時(shi)間(jian),每條都不超過半分鐘。而1.5模型的(de)可靈(ling)生成(cheng)10秒(miao)高(gao)質量視(shi)頻則需(xu)要耗時(shi)10分鐘以(yi)上。
需要注(zhu)意的(de)是,上述即夢、可靈(ling)生(sheng)成的(de)視(shi)頻,均由(you)記(ji)者測試生(sheng)成,不(bu)同版本、描述的(de)細節,都(dou)會造成視(shi)頻生(sheng)成效果的(de)差異(yi)。
AI視頻生成領域混戰
對(dui)于字節跳動、快手這兩大短(duan)視頻巨頭而言,AI視頻生成領域(yu)的(de)對(dui)手遠不止彼此。
例(li)如,11月8日,“AI六小龍”之一(yi)(yi)的(de)智譜(pu)對其視頻生(sheng)成(cheng)(cheng)工具清影(ying)進行升級。升級后的(de)清影(ying)支持(chi)任意比例(li)的(de)圖像(xiang)生(sheng)成(cheng)(cheng)視頻,并且(qie)具備多通道生(sheng)成(cheng)(cheng)能(neng)力,同一(yi)(yi)指(zhi)令或(huo)圖片(pian)可(ke)以一(yi)(yi)次(ci)性生(sheng)成(cheng)(cheng)4個視頻。此外,清影(ying)可(ke)以生(sheng)成(cheng)(cheng)與畫面(mian)匹配(pei)的(de)音效,該音效功能(neng)將在本(ben)月上線公測。
更(geng)早之前,8月31日,MiniMax發布(bu)了其(qi)首(shou)(shou)(shou)款AI高清視(shi)(shi)頻(pin)生成(cheng)模(mo)型技術abab-video-1,上線首(shou)(shou)(shou)月便捷(jie)報頻(pin)傳。據MiniMax官方公眾號披露,在視(shi)(shi)頻(pin)模(mo)型上線海螺AI的(de)首(shou)(shou)(shou)月,海螺AI網頁版訪問量增速超800%,用(yong)戶覆蓋全(quan)球超180個國家和地區,產(chan)品連奪(duo)AI產(chan)品榜(bang)(web)9月全(quan)球增速榜(bang)和國內增速榜(bang)榜(bang)首(shou)(shou)(shou)。
北(bei)京市社會科學院管理研究所(suo)副研究員王鵬向《每日經(jing)濟新聞》記(ji)者指出,目前國(guo)內(nei)(nei)外(wai)AI視頻產品都(dou)處于快速發展階段,國(guo)外(wai)Meta、Google等科技巨頭都(dou)在積極布(bu)局AI視頻領域;國(guo)內(nei)(nei)方面(mian),快手(shou)可(ke)靈、即夢AI等產品也在不斷迭代升級,提升用戶體驗和商業(ye)化能力。
在商業化可能(neng)性(xing)方面,東(dong)吳證券在今年8月發布(bu)的研報提(ti)到(dao),在AI滲透率為15%的中性(xing)假設(she)下,中國AI視頻(pin)生(sheng)成行(xing)業的潛(qian)在空間(jian)為3178億元;在全AI模式(shi)下,電影、長劇、動畫片(pian)和短劇的制作成本(ben),相較傳(chuan)統模式(shi)將下降超(chao)95%。
龐大的(de)(de)潛(qian)在市場規模和降本增效的(de)(de)“超能(neng)力”也能(neng)從可(ke)靈的(de)(de)使用(yong)數據上窺見一二。
在10月舉行的“2024中國計算機大(da)會”上(shang),快手副(fu)總(zong)裁、大(da)模型團隊負(fu)責人張(zhang)迪透(tou)露,自今(jin)年6月發布(bu)以來,快手可(ke)靈AI已有(you)超(chao)過(guo)360萬用戶,累計生成3700萬個視頻以及超(chao)過(guo)1億張(zhang)圖片(pian)。
盤和林在接受《每日經(jing)濟新(xin)聞》記者(zhe)采訪時表示,可靈背(bei)靠快手,擁有流量支持,所以商業化進程很快,“AI視頻(pin)產品還是要(yao)背(bei)靠互聯網平臺(tai),有流量才(cai)有商業潛力”。
相似的(de)是(shi),字節跳(tiao)動也將視(shi)頻模型的(de)商(shang)(shang)業化放在(zai)了任(ren)務(wu)單(dan)前列(lie)。在(zai)今年9月推(tui)出兩款視(shi)頻生成(cheng)模型時,火山(shan)引擎總裁(cai)譚待曾(ceng)公開表示,新款豆包(bao)視(shi)頻生成(cheng)模型“從一落地就開始考慮商(shang)(shang)業化”,使用(yong)領域包(bao)括電商(shang)(shang)營銷、動畫教(jiao)育(yu)、城(cheng)市文旅和微劇本。
“AI視頻(pin)(pin)將在B端和C端展現(xian)出不同的(de)商業化潛力。”王鵬認為,面向B端,AI視頻(pin)(pin)可(ke)以為企(qi)業提供更加(jia)高(gao)效、低成本(ben)的(de)視頻(pin)(pin)制作和分發解決(jue)方案;在C端,AI視頻(pin)(pin)可(ke)以滿足用戶對個性化、高(gao)質(zhi)量(liang)視頻(pin)(pin)內容的(de)需(xu)求,還能與電商、廣告(gao)等行(xing)業相結(jie)合,實現(xian)更加(jia)精準的(de)營銷和變(bian)現(xian)。
封面圖片來源:視覺中國
如需轉載請與《每日經濟新聞》報社聯系。
未經(jing)《每日經(jing)濟(ji)新(xin)聞》報社授權,嚴禁轉載或鏡像,違者必究(jiu)。
讀(du)者熱線:4008890008
特別提(ti)醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不(bu)希望作品(pin)出現在本站,可聯系(xi)我們要求撤下(xia)您的(de)作品(pin)。
歡迎關(guan)注每日經(jing)濟(ji)新聞(wen)APP