• 正文
    • 01.告別慢動(dòng)作畫(huà)面,可靈2.0語(yǔ)義響應(yīng)、動(dòng)態(tài)質(zhì)量與美學(xué)全面升級(jí)
    • 02.打造人與AI交互全新語(yǔ)言畫(huà)面元素定制化更容易了
    • 03.結(jié)語(yǔ):基礎(chǔ)大模型+創(chuàng)作工具全棧升級(jí)快手要打造全球第一AI視頻應(yīng)用
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

力壓OpenAI谷歌,快手掏出最強(qiáng)視頻大模型,可靈2.0一句話(huà)搞定特效

04/16 15:10
480
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者 | ?陳駿達(dá)

編輯 | ?心緣

基礎(chǔ)模型+創(chuàng)作工具全棧升級(jí),可靈AI 2.0究竟有何不同?

智東西4月15日?qǐng)?bào)道,就在剛剛,可靈AI面向全球正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型,繼續(xù)大幅領(lǐng)先業(yè)內(nèi)前沿模型??伸`2.0在文生視頻領(lǐng)域OpenAI Sora實(shí)現(xiàn)367%的勝負(fù)比,在圖生視頻領(lǐng)域較谷歌Veo2實(shí)現(xiàn)了182%的勝負(fù)比。

與可靈1.6相比,可靈2.0模型在動(dòng)態(tài)質(zhì)量、語(yǔ)義響應(yīng)、畫(huà)面美學(xué)等維度有明顯進(jìn)步。在下方案例中,可靈2.0準(zhǔn)確呈現(xiàn)了日光從清晨到正午再到傍晚的變化,還使用了延時(shí)攝影的風(fēng)格。

可圖2.0模型在指令遵循、電影質(zhì)感及藝術(shù)風(fēng)格表現(xiàn)等方面顯著提升,色彩和光影更為高級(jí),情緒表達(dá)更具感染力,并新增了60余種風(fēng)格化效果。

在本次2.0模型迭代中,可靈AI還正式發(fā)布AI視頻生成的全新交互理念Multi-modal Visual Language(MVL),讓用戶(hù)能夠利用圖像參考、視頻片段等多模態(tài)信息,將腦海中的復(fù)雜創(chuàng)意直接高效地傳達(dá)給AI,或是對(duì)視頻、圖像等多模內(nèi)容進(jìn)行編輯。用戶(hù)可以將視頻、圖片等作為元素上傳,并直接將其嵌入至提示詞中。這些元素能在畫(huà)面內(nèi)以合乎邏輯的方式組合,進(jìn)一步提升畫(huà)面的可控性。

01.告別慢動(dòng)作畫(huà)面,可靈2.0語(yǔ)義響應(yīng)、動(dòng)態(tài)質(zhì)量與美學(xué)全面升級(jí)

快手高級(jí)副總裁、社區(qū)科學(xué)線(xiàn)負(fù)責(zé)人蓋坤介紹,自去年6月發(fā)布以來(lái),可靈AI已累計(jì)完成超20次迭代。截至目前,可靈AI全球用戶(hù)規(guī)模突破2200萬(wàn),過(guò)去的10個(gè)月里,其月活用戶(hù)量增長(zhǎng)25倍,累計(jì)生成超過(guò)1.68億個(gè)視頻及3.44億張圖片。

然而,現(xiàn)有的視頻生成模型仍存在語(yǔ)義遵循能力差、動(dòng)態(tài)質(zhì)量不佳等問(wèn)題,妨礙了創(chuàng)作者表達(dá)、控制生成結(jié)果的能力??伸`AI全系模型進(jìn)行的本次升級(jí),正是為了解決這些問(wèn)題。據(jù)快手副總裁、可靈AI負(fù)責(zé)人張迪介紹,可靈2.0的升級(jí)主要有三方面:語(yǔ)義響應(yīng)、動(dòng)態(tài)質(zhì)量與畫(huà)面美學(xué)。升級(jí)后的可靈2.0可以更準(zhǔn)確地反映人物表情、動(dòng)作的變化,動(dòng)作的豐富度、真實(shí)性有明顯提升。在下方案例中,可靈2.0為準(zhǔn)確描繪了提示詞中“手錘桌子起身”的效果,而可靈1.6并沒(méi)有完全還原。

可靈2.0也告別了視頻生成模型的通病——運(yùn)動(dòng)速度不合理。在下方馬飛速奔馳的畫(huà)面中,可靈2.0的生成結(jié)果不再是慢動(dòng)作,鏡頭表現(xiàn)更加真實(shí)??伸`團(tuán)隊(duì)還對(duì)其生成畫(huà)面的復(fù)雜動(dòng)作、動(dòng)作幅度進(jìn)行優(yōu)化。

生成大片感的畫(huà)面對(duì)可靈2.0來(lái)說(shuō)也不是問(wèn)題。下方這一畫(huà)面中,無(wú)論是人物奔跑的動(dòng)作,還是后方爆炸的效果,都十分逼真,角色演繹生動(dòng)。

可靈2.0對(duì)時(shí)間的理解能力提升,能幫助創(chuàng)作者生成更連貫、更具有故事性、延續(xù)性的畫(huà)面。圖像生成模型可圖2.0的升級(jí)同樣是在指令遵循方面。下方這一案例的提示詞中具有“伺服電機(jī)”、“機(jī)械女神”、“壁畫(huà)”、“拉斐爾《雅典學(xué)院》的古典平衡感”等諸多要素,可圖2.0的生成結(jié)果很好地還原了相關(guān)要素,

可圖2.0能更好地展現(xiàn)提示詞中對(duì)于色彩、光影的表述,對(duì)人物情緒的呈現(xiàn)更具感染力。下方4張圖片均為可圖2.0的生成結(jié)果,若未經(jīng)提示,或許許多人都會(huì)認(rèn)為這是某部電影的截圖。

02.打造人與AI交互全新語(yǔ)言畫(huà)面元素定制化更容易了

張迪在發(fā)布會(huì)現(xiàn)場(chǎng)分享了可靈2.0和可圖2.0能力升級(jí)背后的技術(shù)創(chuàng)新??伸`團(tuán)隊(duì)為可靈2.0采用了全新設(shè)計(jì)的DiT架構(gòu),這提升了其視覺(jué)、文本模態(tài)的信息融合能力。全新設(shè)計(jì)的VAE架構(gòu)則使復(fù)雜動(dòng)態(tài)場(chǎng)景下畫(huà)面的過(guò)度更順暢,質(zhì)感更自然。同時(shí),可靈團(tuán)隊(duì)還首次系統(tǒng)性研究了視頻生成DiT架構(gòu)的Scaling Law特性。

在模型訓(xùn)練、推理策略方面,可靈2.0在后訓(xùn)練階段利用了強(qiáng)化學(xué)習(xí)技術(shù),這提升了其對(duì)復(fù)雜運(yùn)動(dòng)場(chǎng)景、主體交互的生成能力,也強(qiáng)化對(duì)運(yùn)鏡語(yǔ)言、構(gòu)圖術(shù)語(yǔ)等專(zhuān)業(yè)表達(dá)的理解與響應(yīng)能力。

張迪透露,目前可靈平臺(tái)上高達(dá)85%的視頻生成任務(wù)為圖生視頻任務(wù)。由此看來(lái),更強(qiáng)的生圖能力也成為創(chuàng)作者所需工具。此次可圖2.0的技術(shù)創(chuàng)新包括全新升級(jí)的文本表征處理鏈路、全面升級(jí)的數(shù)據(jù)體系和多樣性以及全新的提示詞工程和去噪策略。升級(jí)后的可圖2.0會(huì)深度思考用戶(hù)的提示詞,其逐步自適應(yīng)的Diffusion去噪策略,可以?xún)?yōu)化出圖細(xì)節(jié),提升圖像質(zhì)量。面向視覺(jué)創(chuàng)作者,可靈還推出了視頻、圖像多模態(tài)編輯能力,這些能力基于可靈提出的視覺(jué)生成交互理念Multi-modal Visual Language(MVL)。蓋坤介紹,可靈團(tuán)隊(duì)發(fā)現(xiàn),文字不足以向模型準(zhǔn)確描述復(fù)雜動(dòng)作、復(fù)雜表情等內(nèi)容,可靈希望定義一種人與AI交互的全新語(yǔ)言,讓模型能更好地理解人的想象力。利用MVL技術(shù),創(chuàng)作者可以利用視頻、圖像、文字等多模態(tài)信息,定義畫(huà)面內(nèi)人物的長(zhǎng)相、著裝、表情以及畫(huà)面背景等。

在這一過(guò)程中,文本扮演了語(yǔ)義骨架的作用,多模態(tài)描述子(MMW)能嵌入這一骨架,擴(kuò)展描述的完備性、準(zhǔn)確性。未來(lái),可靈還計(jì)劃支持文本+MMW動(dòng)作描述文件,畫(huà)面角色的運(yùn)動(dòng)軌跡也能完全可控。

03.結(jié)語(yǔ):基礎(chǔ)大模型+創(chuàng)作工具全棧升級(jí)快手要打造全球第一AI視頻應(yīng)用

本次可靈AI 2.0的升級(jí),不僅包括基礎(chǔ)大模型的能力提升,還有面向創(chuàng)作者日常生產(chǎn)流程的全棧工具優(yōu)化,蓋坤稱(chēng),可靈AI的愿景是“讓每個(gè)人都能用AI講出好故事”。日前,在快手2025財(cái)年電話(huà)會(huì)議上,快手集團(tuán)高管也分享了類(lèi)似的觀點(diǎn),快手認(rèn)為AI對(duì)其發(fā)展至關(guān)重要,將給予堅(jiān)定、長(zhǎng)期的投入,可靈會(huì)在技術(shù)升級(jí)的同時(shí),進(jìn)行全球市場(chǎng)和品牌運(yùn)營(yíng)活動(dòng)。快手的目標(biāo)是,將可靈打造為營(yíng)收規(guī)模世界第一的AI視頻應(yīng)用。(本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【智東西】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。)

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶(hù)資源
  • 寫(xiě)文章/發(fā)需求
立即登錄