无码国产精品专区,蜜芽亚洲av无码精品国产午夜,日本乱码一区二区三区不卡

作者 | ?陳駿達(dá)

編輯 | ?心緣

基礎(chǔ)模型+創(chuàng)作工具全棧升級(jí)，可靈AI 2.0究竟有何不同？

智東西4月15日?qǐng)?bào)道，就在剛剛，可靈AI面向全球正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型，繼續(xù)大幅領(lǐng)先業(yè)內(nèi)前沿模型。可靈2.0在文生視頻領(lǐng)域較OpenAI Sora實(shí)現(xiàn)367%的勝負(fù)比，在圖生視頻領(lǐng)域較谷歌Veo2實(shí)現(xiàn)了182%的勝負(fù)比。

與可靈1.6相比，可靈2.0模型在動(dòng)態(tài)質(zhì)量、語(yǔ)義響應(yīng)、畫(huà)面美學(xué)等維度有明顯進(jìn)步。在下方案例中，可靈2.0準(zhǔn)確呈現(xiàn)了日光從清晨到正午再到傍晚的變化，還使用了延時(shí)攝影的風(fēng)格。

可圖2.0模型在指令遵循、電影質(zhì)感及藝術(shù)風(fēng)格表現(xiàn)等方面顯著提升，色彩和光影更為高級(jí)，情緒表達(dá)更具感染力，并新增了60余種風(fēng)格化效果。

在本次2.0模型迭代中，可靈AI還正式發(fā)布AI視頻生成的全新交互理念Multi-modal Visual Language（MVL），讓用戶能夠利用圖像參考、視頻片段等多模態(tài)信息，將腦海中的復(fù)雜創(chuàng)意直接高效地傳達(dá)給AI，或是對(duì)視頻、圖像等多模內(nèi)容進(jìn)行編輯。用戶可以將視頻、圖片等作為元素上傳，并直接將其嵌入至提示詞中。這些元素能在畫(huà)面內(nèi)以合乎邏輯的方式組合，進(jìn)一步提升畫(huà)面的可控性。

01.告別慢動(dòng)作畫(huà)面，可靈2.0語(yǔ)義響應(yīng)、動(dòng)態(tài)質(zhì)量與美學(xué)全面升級(jí)

快手高級(jí)副總裁、社區(qū)科學(xué)線負(fù)責(zé)人蓋坤介紹，自去年6月發(fā)布以來(lái)，可靈AI已累計(jì)完成超20次迭代。截至目前，可靈AI全球用戶規(guī)模突破2200萬(wàn)，過(guò)去的10個(gè)月里，其月活用戶量增長(zhǎng)25倍，累計(jì)生成超過(guò)1.68億個(gè)視頻及3.44億張圖片。

然而，現(xiàn)有的視頻生成模型仍存在語(yǔ)義遵循能力差、動(dòng)態(tài)質(zhì)量不佳等問(wèn)題，妨礙了創(chuàng)作者表達(dá)、控制生成結(jié)果的能力?？伸`AI全系模型進(jìn)行的本次升級(jí)，正是為了解決這些問(wèn)題。據(jù)快手副總裁、可靈AI負(fù)責(zé)人張迪介紹，可靈2.0的升級(jí)主要有三方面：語(yǔ)義響應(yīng)、動(dòng)態(tài)質(zhì)量與畫(huà)面美學(xué)。升級(jí)后的可靈2.0可以更準(zhǔn)確地反映人物表情、動(dòng)作的變化，動(dòng)作的豐富度、真實(shí)性有明顯提升。在下方案例中，可靈2.0為準(zhǔn)確描繪了提示詞中“手錘桌子起身”的效果，而可靈1.6并沒(méi)有完全還原。

可靈2.0也告別了視頻生成模型的通病——運(yùn)動(dòng)速度不合理。在下方馬飛速奔馳的畫(huà)面中，可靈2.0的生成結(jié)果不再是慢動(dòng)作，鏡頭表現(xiàn)更加真實(shí)?？伸`團(tuán)隊(duì)還對(duì)其生成畫(huà)面的復(fù)雜動(dòng)作、動(dòng)作幅度進(jìn)行優(yōu)化。

生成大片感的畫(huà)面對(duì)可靈2.0來(lái)說(shuō)也不是問(wèn)題。下方這一畫(huà)面中，無(wú)論是人物奔跑的動(dòng)作，還是后方爆炸的效果，都十分逼真，角色演繹生動(dòng)。

可靈2.0對(duì)時(shí)間的理解能力提升，能幫助創(chuàng)作者生成更連貫、更具有故事性、延續(xù)性的畫(huà)面。圖像生成模型可圖2.0的升級(jí)同樣是在指令遵循方面。下方這一案例的提示詞中具有“伺服電機(jī)”、“機(jī)械女神”、“壁畫(huà)”、“拉斐爾《雅典學(xué)院》的古典平衡感”等諸多要素，可圖2.0的生成結(jié)果很好地還原了相關(guān)要素，

可圖2.0能更好地展現(xiàn)提示詞中對(duì)于色彩、光影的表述，對(duì)人物情緒的呈現(xiàn)更具感染力。下方4張圖片均為可圖2.0的生成結(jié)果，若未經(jīng)提示，或許許多人都會(huì)認(rèn)為這是某部電影的截圖。

02.打造人與AI交互全新語(yǔ)言畫(huà)面元素定制化更容易了

張迪在發(fā)布會(huì)現(xiàn)場(chǎng)分享了可靈2.0和可圖2.0能力升級(jí)背后的技術(shù)創(chuàng)新?？伸`團(tuán)隊(duì)為可靈2.0采用了全新設(shè)計(jì)的DiT架構(gòu)，這提升了其視覺(jué)、文本模態(tài)的信息融合能力。全新設(shè)計(jì)的VAE架構(gòu)則使復(fù)雜動(dòng)態(tài)場(chǎng)景下畫(huà)面的過(guò)度更順暢，質(zhì)感更自然。同時(shí)，可靈團(tuán)隊(duì)還首次系統(tǒng)性研究了視頻生成DiT架構(gòu)的Scaling Law特性。

在模型訓(xùn)練、推理策略方面，可靈2.0在后訓(xùn)練階段利用了強(qiáng)化學(xué)習(xí)技術(shù)，這提升了其對(duì)復(fù)雜運(yùn)動(dòng)場(chǎng)景、主體交互的生成能力，也強(qiáng)化對(duì)運(yùn)鏡語(yǔ)言、構(gòu)圖術(shù)語(yǔ)等專業(yè)表達(dá)的理解與響應(yīng)能力。

張迪透露，目前可靈平臺(tái)上高達(dá)85%的視頻生成任務(wù)為圖生視頻任務(wù)。由此看來(lái)，更強(qiáng)的生圖能力也成為創(chuàng)作者所需工具。此次可圖2.0的技術(shù)創(chuàng)新包括全新升級(jí)的文本表征處理鏈路、全面升級(jí)的數(shù)據(jù)體系和多樣性以及全新的提示詞工程和去噪策略。升級(jí)后的可圖2.0會(huì)深度思考用戶的提示詞，其逐步自適應(yīng)的Diffusion去噪策略，可以優(yōu)化出圖細(xì)節(jié)，提升圖像質(zhì)量。面向視覺(jué)創(chuàng)作者，可靈還推出了視頻、圖像多模態(tài)編輯能力，這些能力基于可靈提出的視覺(jué)生成交互理念Multi-modal Visual Language（MVL）。蓋坤介紹，可靈團(tuán)隊(duì)發(fā)現(xiàn)，文字不足以向模型準(zhǔn)確描述復(fù)雜動(dòng)作、復(fù)雜表情等內(nèi)容，可靈希望定義一種人與AI交互的全新語(yǔ)言，讓模型能更好地理解人的想象力。利用MVL技術(shù)，創(chuàng)作者可以利用視頻、圖像、文字等多模態(tài)信息，定義畫(huà)面內(nèi)人物的長(zhǎng)相、著裝、表情以及畫(huà)面背景等。

在這一過(guò)程中，文本扮演了語(yǔ)義骨架的作用，多模態(tài)描述子（MMW）能嵌入這一骨架，擴(kuò)展描述的完備性、準(zhǔn)確性。未來(lái)，可靈還計(jì)劃支持文本+MMW動(dòng)作描述文件，畫(huà)面角色的運(yùn)動(dòng)軌跡也能完全可控。

03.結(jié)語(yǔ)：基礎(chǔ)大模型+創(chuàng)作工具全棧升級(jí)快手要打造全球第一AI視頻應(yīng)用

本次可靈AI 2.0的升級(jí)，不僅包括基礎(chǔ)大模型的能力提升，還有面向創(chuàng)作者日常生產(chǎn)流程的全棧工具優(yōu)化，蓋坤稱，可靈AI的愿景是“讓每個(gè)人都能用AI講出好故事”。日前，在快手2025財(cái)年電話會(huì)議上，快手集團(tuán)高管也分享了類似的觀點(diǎn)，快手認(rèn)為AI對(duì)其發(fā)展至關(guān)重要，將給予堅(jiān)定、長(zhǎng)期的投入，可靈會(huì)在技術(shù)升級(jí)的同時(shí)，進(jìn)行全球市場(chǎng)和品牌運(yùn)營(yíng)活動(dòng)?？焓值哪繕?biāo)是，將可靈打造為營(yíng)收規(guī)模世界第一的AI視頻應(yīng)用。（本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【智東西】原創(chuàng)內(nèi)容，未經(jīng)賬號(hào)授權(quán)，禁止隨意轉(zhuǎn)載。）

力壓OpenAI谷歌，快手掏出最強(qiáng)視頻大模型，可靈2.0一句話搞定特效

01.告別慢動(dòng)作畫(huà)面，可靈2.0語(yǔ)義響應(yīng)、動(dòng)態(tài)質(zhì)量與美學(xué)全面升級(jí)

02.打造人與AI交互全新語(yǔ)言畫(huà)面元素定制化更容易了

03.結(jié)語(yǔ)：基礎(chǔ)大模型+創(chuàng)作工具全棧升級(jí)快手要打造全球第一AI視頻應(yīng)用

相關(guān)推薦

力壓OpenAI谷歌，快手掏出最強(qiáng)視頻大模型，可靈2.0一句話搞定特效

01.告別慢動(dòng)作畫(huà)面，可靈2.0語(yǔ)義響應(yīng)、動(dòng)態(tài)質(zhì)量與美學(xué)全面升級(jí)

02.打造人與AI交互全新語(yǔ)言畫(huà)面元素定制化更容易了

03.結(jié)語(yǔ)：基礎(chǔ)大模型+創(chuàng)作工具全棧升級(jí)快手要打造全球第一AI視頻應(yīng)用

相關(guān)推薦

力壓OpenAI谷歌，快手掏出最強(qiáng)視頻大模型，可靈2.0一句話搞定特效

01.告別慢動(dòng)作畫(huà)面，可靈2.0語(yǔ)義響應(yīng)、動(dòng)態(tài)質(zhì)量與美學(xué)全面升級(jí)