當奧特曼發(fā)布OpenAI首個視頻生成模型Sora之后,業(yè)界震撼了,一些人感覺到自己的職業(yè)生涯要Over了。Sora能生成長達1分鐘的高清視頻,要知道這不是拼接和調(diào)用,是通過AI自主地生成的視頻內(nèi)容,而且是一鏡到底。OpenAI表示,正在教AI理解和模擬運動中的物理世界,目標是訓(xùn)練模型來幫助人們解決需要現(xiàn)實世界交互的問題。根據(jù)文本提示生成視頻,現(xiàn)在開始了。
1.顛覆性的革命時代來了?
目前Sora已經(jīng)能生成具有多個角色、包含特定運動的復(fù)雜場景,不僅能理解用戶在提示中提出的要求,還了解這些物體在物理世界中的存在方式。Sora還可以在單個視頻中創(chuàng)建多個鏡頭,并依靠對語言的深入理解準確地解釋提示詞,保留角色和視覺風(fēng)格。
簡單地說,Sora是一種擴散模型,從噪聲開始,能夠一次生成整個視頻或擴展視頻的長度,一次生成多幀的視頻,確保畫面主體即使暫時離開視野也能保持不變。與GPT模型類似,Sora使用了Transformer架構(gòu),有很強的擴展性。OpenAI將視頻和圖像表示為patch,類似于GPT中的token。通過這種統(tǒng)一的數(shù)據(jù)表示方式,可以在比以前更廣泛的視覺數(shù)據(jù)上訓(xùn)練模型,涵蓋不同的持續(xù)時間、分辨率和縱橫比。
除了能夠僅根據(jù)文本指令生成視頻之外,該模型還能夠獲取現(xiàn)有的靜態(tài)圖像并從中生成視頻,準確地讓圖像內(nèi)容動起來并關(guān)注小細節(jié)。該模型還可以獲取現(xiàn)有視頻并對其進行擴展或填充缺失的幀,Sora 是能夠理解和模擬現(xiàn)實世界的模型的基礎(chǔ),OpenAI相信這一功能將成為實現(xiàn)AGI的重要里程碑。
借助于對語言的深刻理解,Sora能夠準確地理解用戶指令中所表達的需求,把握這些元素在現(xiàn)實世界中的表現(xiàn)形式。也就是說,Sora創(chuàng)造出的角色,能夠表達豐富的情感。要知道,以前的AI視頻,都是單鏡頭生成的。而OpenAI能在多角度的鏡頭切換中,就能實現(xiàn)對象的一致性,這種級別的多鏡頭一致性,是別的工具很難企及的。
2.Sora現(xiàn)在還處于成長階段
當然,Sora當前還存在一些弱點。OpenAI表示,它可能難以準確模擬復(fù)雜場景的物理原理,并且可能無法理解因果關(guān)系。該模型可能混淆提示的空間細節(jié),例如混淆左右,并且可能難以精確描述隨著時間推移發(fā)生的事件,例如遵循特定的相機軌跡。再比如或許在生成的一則視頻中已經(jīng)咬了一口的餅干,但Sora還會保持完整的餅干形態(tài)而不是已經(jīng)缺了一口的物理形態(tài),在理解這個過程中還需要不斷地訓(xùn)練,但應(yīng)該不是一個很困難的事情。
得益于DALL·E 3所使用的擴散模型,以及GPT-4的Transformer引擎,Sora不僅能夠生成滿足特定要求的視頻,而且能夠展示出對電影拍攝語法的自發(fā)理解。Sora不僅能夠一次性生成完整的視頻,還能延長已生成的視頻。英偉達的技術(shù)專家表示,Sora是一個數(shù)據(jù)驅(qū)動的物理引擎。它是對許多世界的模擬,無論是真實的,還是虛構(gòu)的。該模擬器通過去噪和梯度學(xué)習(xí)方式,學(xué)習(xí)了復(fù)雜的渲染、“直觀的”物理、長期推理和語義理解。
有人說,Sora和類似的程序?qū)氐赘淖僒ikTok等社交平臺??梢哉f,我們已經(jīng)很難再分清,AI和現(xiàn)實的界限了。不過,現(xiàn)在就說能夠改變Tik Tok這種社交平臺,或許還為時尚早,不過這個攪局過程應(yīng)該不會太長了。因為Sora擁有深入的語言理解能力,能夠準確解釋提示并生成能表達豐富情感的角色。這使得模型能夠更好地理解用戶的文本指令,并在生成的視頻內(nèi)容中忠實地反映這些指令。
而多鏡頭生成能力讓我們看到了AI的成長和學(xué)習(xí)能力,Sora可以在單個生成的視頻中創(chuàng)建多個鏡頭,同時保持角色和視覺風(fēng)格的一致性。這種能力對于制作電影預(yù)告片、動畫或其他需要多視角展示的內(nèi)容非常有用。Sora的出現(xiàn),預(yù)示著一個全新的視覺敘事時代的到來,它能夠?qū)⑷藗兊南胂罅D(zhuǎn)化為生動的動態(tài)畫面,將文字的魔力轉(zhuǎn)化為視覺的盛宴。在這個由數(shù)據(jù)和算法編織的未來,Sora正以其獨特的方式,重新定義了我們與數(shù)字世界的互動。
3.Sora將對哪些從業(yè)者帶來危機?
Sora的推出將為視頻生成領(lǐng)域帶來革命性的進步,也必然將對多個行業(yè)產(chǎn)生影響,包括但不限于廣告、影視、游戲、教育、新聞等領(lǐng)域。它可以幫助企業(yè)和個人更快速地創(chuàng)作和制作視頻內(nèi)容,提高效率。但這也可能導(dǎo)致部分視頻從業(yè)者面臨失業(yè)的風(fēng)險,尤其是近些年隨著短視頻的風(fēng)靡,視頻職業(yè)剪輯制作者,他們的前景恐令人擔(dān)憂。
當然,人工智能在很多領(lǐng)域也可以為人類提供更多便利和支持,因此不一定會造成失業(yè)潮。相反,它可能促使視頻行業(yè)朝著更高端、更創(chuàng)新的方向發(fā)展。如何應(yīng)對科技的進步,以及由此帶來的一系列的改變,才是我們必須在意的地方。眾所周知,ChatGPT誕生之初,引發(fā)了國內(nèi)互聯(lián)網(wǎng)大廠,以及眾多創(chuàng)業(yè)公司的跟進,一度上演了國內(nèi)市場的百模大戰(zhàn)。如今,Sora來了,國內(nèi)企業(yè)又會如何應(yīng)對?
可以說,視頻生成模型Sora的誕生,也將再次引起國內(nèi)企業(yè)跟進的風(fēng)潮。360董事長周鴻祎表示,Sora對短視頻行業(yè)有巨大的顛覆,但未必能那么快擊敗TikTok,更多是創(chuàng)作力工具。此外,他認為,中美兩國的人工智能差距在拉大。對于我們的企業(yè)而言,如何投入精力和創(chuàng)新的嘗試以及技術(shù)的積累,才是最關(guān)鍵的。