今日報紙

字節跳動、快手視頻AI正面交鋒：理解、捕捉和想象都有差異

每(mei)日經濟(ji)新聞 2024-11-11 22:21:14

每(mei)經記者(zhe)｜王郁彪楊昕(xin)怡每(mei)經編輯｜張海妮

字節跳動、快(kuai)手，兩(liang)位(wei)短視頻巨頭在(zai)AI領(ling)域迎來了正面(mian)交鋒。

11月8日，字(zi)節(jie)跳動(dong)(dong)旗下的(de)AI內容(rong)平臺(tai)(tai)即(ji)夢AI宣布，由字(zi)節(jie)跳動(dong)(dong)自(zi)研(yan)的(de)視(shi)(shi)頻生成模型(xing)(xing)Seaweed面向平臺(tai)(tai)用(yong)戶正式開放。據字(zi)節(jie)跳動(dong)(dong)方面介紹(shao)，本次開放使用(yong)的(de)豆包視(shi)(shi)頻生成模型(xing)(xing)Seaweed是該(gai)款模型(xing)(xing)的(de)標準(zhun)版，僅需(xu)60秒(miao)即(ji)能生成時長(chang)5秒(miao)的(de)高質量(liang)AI視(shi)(shi)頻，領先國(guo)內業(ye)界3至5分(fen)鐘的(de)所(suo)需(xu)生成時間。

《每日經濟新(xin)聞》記(ji)者在對即(ji)夢(meng)、可靈的初代版(ban)本和最新(xin)版(ban)本進行實測時(shi)發現，迭代后，兩款產品在視頻生(sheng)(sheng)成效果(guo)上(shang)均有多方面、不同程度(du)的提升，可靈在空間布局和畫(hua)面細節呈現上(shang)更(geng)為準確，且(qie)對生(sheng)(sheng)成內容效果(guo)的調節更(geng)具靈活(huo)性、便(bian)捷(jie)性；而即(ji)夢(meng)在生(sheng)(sheng)成時(shi)長和視頻風格上(shang)有優勢。

視覺中國

一位(wei)大模型(xing)技(ji)術(shu)人(ren)員向(xiang)記者表示，視頻(pin)生成模型(xing)要實(shi)現生產內容的不同“畫風(feng)”是很難的，“技(ji)術(shu)之外，還主要看數據源的豐富程度”。

短期內完成多次迭代

伴隨字節跳動(dong)自研視(shi)頻生成模型Seaweed 開放使用，國內視(shi)頻生成模型大比拼里最具看點(dian)的(de)一對——即夢、可靈終于正式交(jiao)手。

它們都(dou)(dou)承載著(zhu)理(li)解物理(li)世(shi)界，在衍生(sheng)“真(zhen)實”的同(tong)時(shi)盡可(ke)能放大想象(xiang)的“AI造(zao)夢計劃(hua)”，但對于自身而言，即(ji)夢和(he)可(ke)靈也都(dou)(dou)肩(jian)負字節跳(tiao)動和(he)快手又(you)一番商(shang)業(ye)化前景(jing)開拓的重任。

事實上，即(ji)(ji)夢與(yu)可靈都在短短不到(dao)一年的(de)時(shi)間，完成(cheng)了(le)數次迭(die)代。即(ji)(ji)夢3月底開啟視頻生成(cheng)功能內測，半年后，字節(jie)跳動發(fa)布了(le)豆包模(mo)型家族的(de)兩款(kuan)視頻生成(cheng)模(mo)型Seaweed和Pixeldance，并通(tong)過即(ji)(ji)夢AI、火(huo)山引擎小范(fan)圍(wei)邀測，如今Seaweed面(mian)向(xiang)平臺(tai)用戶正式開放。

工信部信息(xi)通信經濟(ji)專(zhuan)家委(wei)員(yuan)會委(wei)員(yuan)盤和林(lin)向《每日經濟(ji)新聞》記(ji)者表示(shi)，即夢使(shi)用的(de)新模型生成(cheng)速度(du)有(you)所提升，給用戶的(de)生成(cheng)體(ti)驗更好了(le)，“即夢AI目前在國內生成(cheng)領域，還(huan)是比較領先的(de)”。

可靈在6月“出生(sheng)”后(hou)一(yi)鳴驚人，發(fa)布(bu)(bu)至(zhi)今經歷了(le)十(shi)余次更新，包括發(fa)布(bu)(bu)圖生(sheng)視(shi)頻(pin)功(gong)能(neng)以及(ji)1.5模(mo)型的上(shang)(shang)線等。截(jie)至(zhi)目前，可靈擁有超過360萬用戶，累計生(sheng)成(cheng)3700萬個視(shi)頻(pin)，并在近(jin)期正式(shi)上(shang)(shang)架獨立App（應用軟件(jian)）。

《每日經濟新聞(wen)》記者選取了OpenAI官方(fang)公布的(de)(de)(de)5條Sora視(shi)(shi)(shi)頻(pin)提示詞（東京街(jie)頭(tou)的(de)(de)(de)女士、太(tai)空人、無人機視(shi)(shi)(shi)角的(de)(de)(de)海岸、3D動畫的(de)(de)(de)小(xiao)怪(guai)物、云端讀書的(de)(de)(de)年輕(qing)人）分別測試即夢和(he)可(ke)靈的(de)(de)(de)初代版本和(he)最新版本，縱向對(dui)比兩個視(shi)(shi)(shi)頻(pin)生(sheng)成模型的(de)(de)(de)視(shi)(shi)(shi)頻(pin)效(xiao)果。

對比即夢(meng)(meng)最初版本和(he)最新版本生產(chan)的(de)視頻效(xiao)果后，記者(zhe)發(fa)現，即夢(meng)(meng)有兩部分(fen)更新較(jiao)為(wei)明(ming)顯：一個是在(zai)動(dong)態(tai)的(de)“人事物”表現上，動(dong)作(zuo)的(de)捕捉(zhuo)和(he)連貫性(xing)均有較(jiao)為(wei)明(ming)顯的(de)提升(sheng)；另(ling)一個是畫面風格的(de)差(cha)異化呈現也有比較(jiao)大的(de)進步(bu)。

以(yi)“東京街頭(tou)的(de)(de)女士”為例，初代即(ji)夢塑造的(de)(de)人物(wu)動(dong)作僵硬，特別是在腿部(bu)、腳(jiao)(jiao)部(bu)動(dong)作的(de)(de)捕捉上，整(zheng)體呈現的(de)(de)效果(guo)是模(mo)糊和扭曲的(de)(de)。迭代后的(de)(de)新版即(ji)夢，人物(wu)動(dong)作自然(ran)流(liu)暢(chang)，腳(jiao)(jiao)部(bu)動(dong)態(tai)的(de)(de)細節處理更(geng)清晰(xi)、更(geng)符合真實世界的(de)(de)邏輯。

即夢與可靈差異明顯

兩個模(mo)型(xing)在迭代后，生(sheng)成效果都更加穩定，畫質(zhi)也更優，流暢度和(he)細節處(chu)理都更經得起推敲。不過，它們在語義理解、關(guan)鍵(jian)詞捕捉和(he)放大，以及創(chuang)意(yi)想象力和(he)創(chuang)意(yi)相關(guan)性的平(ping)衡上還是有明顯區(qu)別。

橫向對比，將最新版(ban)本的(de)即夢與1.5模型可靈，對5條Sora視頻提(ti)示詞的(de)呈現進行比拼。語義的(de)理解和關鍵(jian)詞的(de)捕捉，讓即夢和可靈的(de)視頻呈現有(you)所不(bu)同。

在(zai)“無(wu)人機(ji)視(shi)角的(de)海岸”視(shi)頻中(zhong)，即夢對(dui)提示詞中(zhong)“帶有燈塔的(de)小(xiao)島”進(jin)行(xing)了相對(dui)模糊化的(de)處理，而(er)無(wu)論(lun)是可(ke)靈還是Sora，這一畫面的(de)重點都是“小(xiao)島”。而(er)在(zai)對(dui)“海岸公路”的(de)描述中(zhong)，即夢的(de)設置并不符合真實世(shi)界(jie)的(de)邏輯。

在“太(tai)空(kong)(kong)人(ren)”的(de)(de)視(shi)頻效果(guo)上，即夢對描述(shu)中的(de)(de)“冒險(xian)”并未(wei)進行描述(shu)，再次生(sheng)成后，手拿咖啡騎(qi)著摩托的(de)(de)太(tai)空(kong)(kong)人(ren)也忽(hu)視(shi)了“冒險(xian)”的(de)(de)設定(ding)。可(ke)靈則通(tong)過人(ren)物的(de)(de)表(biao)情以(yi)及運鏡強調“冒險(xian)”。不(bu)過，即夢和(he)可(ke)靈都相對忽(hu)視(shi)了“電影(ying)預告片”這一(yi)設定(ding)，對比(bi)之下Sora的(de)(de)“太(tai)空(kong)(kong)人(ren)”視(shi)頻更有電影(ying)感。

在(zai)“3D動畫的(de)小怪物”視頻生成中，即(ji)夢的(de)小怪物設(she)(she)定與動畫電影(ying)《怪物公司》里的(de)角色“薩(sa)利(li)”幾乎相(xiang)同。而提(ti)(ti)示(shi)詞中有關(guan)小怪物的(de)部(bu)分描述(shu)，即(ji)夢的(de)呈現(xian)也相(xiang)對不(bu)甚(shen)準確，比如“短毛”設(she)(she)定的(de)執行。此外，在(zai)藝(yi)術(shu)風(feng)格的(de)呈現(xian)上(shang)，提(ti)(ti)示(shi)詞著重強調(diao)了“光照和紋理”，即(ji)夢的(de)執行弱于(yu)可靈(ling)。

而在“東京街頭(tou)的(de)女(nv)(nv)士”視(shi)頻中(zhong)(zhong)，即夢在多主體(ti)復(fu)雜交互(hu)的(de)呈現(xian)上，效(xiao)果相對(dui)于可靈(ling)，表現(xian)不佳。無論(lun)是對(dui)畫(hua)面(mian)主體(ti)的(de)“女(nv)(nv)士”還(huan)是空間描述上都(dou)相對(dui)準確，但對(dui)畫(hua)面(mian)中(zhong)(zhong)的(de)行(xing)人普遍進(jin)行(xing)了模糊處(chu)理(li)，近景中(zhong)(zhong)的(de)行(xing)人則出現(xian)扭曲變形。

不過，即夢AI官方(fang)透露，近期(qi)，Seaweed和Pixeldance兩(liang)款視(shi)頻生成模型的(de)Pro版將開放使用。Pro版模型會(hui)對多(duo)主體交(jiao)互以及多(duo)拍動(dong)作連貫性進行優(you)化，同時攻(gong)克多(duo)鏡頭切(qie)換的(de)一致(zhi)性等難題。

在功能與體驗上，經過(guo)數輪迭代后的可(ke)靈(ling)，在生成視頻(pin)時，有(you)“創意想象力和創意相關性”參(can)數的調整，因此可(ke)以(yi)進行平衡調整。對(dui)于不希望呈現的內容，可(ke)靈(ling)也可(ke)以(yi)設(she)置，比如模糊、拼貼、變形、動畫等。生成操(cao)作更(geng)靈(ling)活，效果可(ke)調整。

經測(ce)試，即(ji)夢視(shi)頻生成(cheng)時(shi)間(jian)更短，Sora的(de)5條提(ti)示詞的(de)視(shi)頻生成(cheng)時(shi)間(jian)，每條都不超過半分鐘。而1.5模型的(de)可靈(ling)生成(cheng)10秒(miao)高(gao)質量視(shi)頻則需(xu)要耗時(shi)10分鐘以(yi)上。

需要注(zhu)意的(de)是，上述即夢、可靈(ling)生(sheng)成的(de)視(shi)頻，均由(you)記(ji)者測試生(sheng)成，不(bu)同版本、描述的(de)細節，都(dou)會造成視(shi)頻生(sheng)成效果的(de)差異(yi)。

AI視頻生成領域混戰

對(dui)于字節跳動、快手這兩大短(duan)視頻巨頭而言，AI視頻生成領域(yu)的(de)對(dui)手遠不止彼此。

例(li)如，11月8日，“AI六小龍”之一(yi)(yi)的(de)智譜(pu)對其視頻生(sheng)成(cheng)(cheng)工具清影(ying)進行升級。升級后的(de)清影(ying)支持(chi)任意比例(li)的(de)圖像(xiang)生(sheng)成(cheng)(cheng)視頻，并且(qie)具備多通道生(sheng)成(cheng)(cheng)能(neng)力，同一(yi)(yi)指(zhi)令或(huo)圖片(pian)可(ke)以一(yi)(yi)次(ci)性生(sheng)成(cheng)(cheng)4個視頻。此外，清影(ying)可(ke)以生(sheng)成(cheng)(cheng)與畫面(mian)匹配(pei)的(de)音效，該音效功能(neng)將在本(ben)月上線公測。

更(geng)早之前，8月31日，MiniMax發布(bu)了其(qi)首(shou)(shou)(shou)款AI高清視(shi)(shi)頻(pin)生成(cheng)模(mo)型技術abab-video-1，上線首(shou)(shou)(shou)月便捷(jie)報頻(pin)傳。據MiniMax官方公眾號披露，在視(shi)(shi)頻(pin)模(mo)型上線海螺AI的(de)首(shou)(shou)(shou)月，海螺AI網頁版訪問量增速超800%，用(yong)戶覆蓋全(quan)球超180個國家和地區，產(chan)品連奪(duo)AI產(chan)品榜(bang)（web）9月全(quan)球增速榜(bang)和國內增速榜(bang)榜(bang)首(shou)(shou)(shou)。

北(bei)京市社會科學院管理研究所(suo)副研究員王鵬向《每日經(jing)濟新聞》記(ji)者指出，目前國(guo)內(nei)(nei)外(wai)AI視頻產品都(dou)處于快速發展階段，國(guo)外(wai)Meta、Google等科技巨頭都(dou)在積極布(bu)局AI視頻領域；國(guo)內(nei)(nei)方面(mian)，快手(shou)可(ke)靈、即夢AI等產品也在不斷迭代升級，提升用戶體驗和商業(ye)化能力。

在商業化可能(neng)性(xing)方面，東(dong)吳證券在今年8月發布(bu)的研報提(ti)到(dao)，在AI滲透率為15%的中性(xing)假設(she)下，中國AI視頻(pin)生(sheng)成行(xing)業的潛(qian)在空間(jian)為3178億元；在全AI模式(shi)下，電影、長劇、動畫片(pian)和短劇的制作成本(ben)，相較傳(chuan)統模式(shi)將下降超(chao)95%。

龐大的(de)(de)潛(qian)在市場規模和降本增效的(de)(de)“超能(neng)力”也能(neng)從可(ke)靈的(de)(de)使用(yong)數據上窺見一二。

在10月舉行的“2024中國計算機大(da)會”上(shang)，快手副(fu)總(zong)裁、大(da)模型團隊負(fu)責人張(zhang)迪透(tou)露，自今(jin)年6月發布(bu)以來，快手可(ke)靈AI已有(you)超(chao)過(guo)360萬用戶，累計生成3700萬個視頻以及超(chao)過(guo)1億張(zhang)圖片(pian)。

盤和林在接受《每日經(jing)濟新(xin)聞》記者(zhe)采訪時表示，可靈背(bei)靠快手，擁有流量支持，所以商業化進程很快，“AI視頻(pin)產品還是要(yao)背(bei)靠互聯網平臺(tai)，有流量才(cai)有商業潛力”。

相似的(de)是(shi)，字節跳(tiao)動也將視(shi)頻模型的(de)商(shang)(shang)業化放在(zai)了任(ren)務(wu)單(dan)前列(lie)。在(zai)今年9月推(tui)出兩款視(shi)頻生成(cheng)模型時，火山(shan)引擎總裁(cai)譚待曾(ceng)公開表示，新款豆包(bao)視(shi)頻生成(cheng)模型“從一落地就開始考慮商(shang)(shang)業化”，使用(yong)領域包(bao)括電商(shang)(shang)營銷、動畫教(jiao)育(yu)、城(cheng)市文旅和微劇本。

“AI視頻(pin)(pin)將在B端和C端展現(xian)出不同的(de)商業化潛力。”王鵬認為，面向B端，AI視頻(pin)(pin)可(ke)以為企(qi)業提供更加(jia)高(gao)效、低成本(ben)的(de)視頻(pin)(pin)制作和分發解決(jue)方案；在C端，AI視頻(pin)(pin)可(ke)以滿足用戶對個性化、高(gao)質(zhi)量(liang)視頻(pin)(pin)內容的(de)需(xu)求，還能與電商、廣告(gao)等行(xing)業相結(jie)合，實現(xian)更加(jia)精準的(de)營銷和變(bian)現(xian)。

封面圖片來源：視覺中國

如需轉載請與《每日經濟新聞》報社聯系。
未經(jing)《每日經(jing)濟(ji)新(xin)聞》報社授權，嚴禁轉載或鏡像，違者必究(jiu)。

讀(du)者熱線：4008890008

特別提(ti)醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不(bu)希望作品(pin)出現在本站，可聯系(xi)我們要求撤下(xia)您的(de)作品(pin)。

視頻 Ai 正面快手

上一篇文章

施(shi)美藥(yao)業擬(ni)創業板上市與去年第三(san)大客(ke)戶(hu)對簿(bu)公(gong)堂

返回每經網首頁

下一篇文章

第十五屆珠海航(hang)展明(ming)日(ri)開(kai)幕：多款(kuan)空軍裝(zhuang)備將集中亮相，低空經濟再成熱點