Openai 發(fā)布了它的文生視頻大模型 Sora。
終于 Openai 也加入了 AI 視頻的戰(zhàn)爭(zhēng),在此之前 Runway 和一眾 AI 視頻公司已經(jīng)奮戰(zhàn)了一年多,SD 最近也發(fā)布了他們產(chǎn)品化的 AI 視頻工具,midjourney 也是即將要發(fā)布文生視頻功能。
但是這次 Openai 的 Sora 基本上對(duì)于之前的文生視頻模型都是碾壓級(jí)的,全球的 AI 視頻公司都要睡不著了。
官網(wǎng): https://openai.com/sora
Sora 并沒有公開對(duì)大家開放測(cè)試入口,只發(fā)布了一個(gè)官方給大家展示效果。
其中的關(guān)鍵信息是:最長(zhǎng)生成 60s 視頻,視頻鏡頭一致性,理解物理世界,超逼真不變形。
讓我們一個(gè)個(gè)來拆解,因?yàn)闊o法真實(shí)體驗(yàn)到 Sora,以下所有的推理都基于他們?cè)诠倬W(wǎng)發(fā)布的視頻。
更多AI視頻干貨:
1. 生成視頻時(shí)長(zhǎng) 60s
官方只發(fā)布了一個(gè) 60s 時(shí)長(zhǎng)的視頻,就是下面這個(gè)東京的街頭視頻。
提示詞:一位時(shí)尚女性走在充滿溫暖霓虹燈和動(dòng)畫城市標(biāo)牌的東京街道上。她穿著黑色皮夾克、紅色長(zhǎng)裙和黑色靴子,拎著黑色錢包。她戴著太陽鏡,涂著紅色口紅。她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去。
但是這個(gè)視頻并不是一鏡到底的,視頻在 37s 后切了一個(gè)特寫鏡頭。從 sora 官網(wǎng)上其他的 demo 時(shí)長(zhǎng)來看,一次視頻的時(shí)長(zhǎng)大概在 10s 左右。所以 60s 多半是視頻拓展和拼接的結(jié)果。并不是一次性生成的 60s。
但是即便是這樣,Sora 的效果也吊打了現(xiàn)有的所有的視頻生成模型。現(xiàn)有的文生視頻模型的時(shí)長(zhǎng)大部分只有 4s。并且一旦生成運(yùn)動(dòng)幅度大一點(diǎn)的,就會(huì)變形。runway 也可以拓展 4s 視頻到 16s,但是基本上很少有人用這個(gè)功能,因?yàn)樾Ч娴奶盍恕?/p>
而 Sora 這個(gè) 60s 的視頻基本上可以展示它解決了下面幾個(gè) AI 視頻技術(shù)難點(diǎn):
- 真實(shí)物理世界逼真模擬
- 角色的一致性
- 長(zhǎng)鏡頭的穩(wěn)定性
2. 理解真實(shí)物理世界的運(yùn)動(dòng)方式
Openai 的官方說法是:Sora 能夠生成具有多個(gè)角色、特定類型的運(yùn)動(dòng)以及主體和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場(chǎng)景。該模型不僅了解用戶在提示中提出的要求,還了解這些東西在物理世界中的存在方式。
之前的 AI 視頻工具也在運(yùn)鏡和運(yùn)動(dòng)上做了一些努力,現(xiàn)在看來這些努力都有點(diǎn)像小孩子的游戲。生成的運(yùn)動(dòng)方式非常的生硬,并且運(yùn)動(dòng)幅度無法很大,一使勁就變形,導(dǎo)致很多現(xiàn)在的 AI 片子都有點(diǎn)像 PPT 電影。
但是這次的 Sora 視頻上的運(yùn)動(dòng)已經(jīng)非常接近真實(shí)的運(yùn)動(dòng)了。
比如下面這個(gè),無論是動(dòng)作的連貫性,順暢度,還有眼睛部分的反光都處理的很好。
提示:“動(dòng)畫場(chǎng)景的特寫是一個(gè)毛茸茸的小怪物跪在一根融化的紅色蠟燭旁邊。 藝術(shù)風(fēng)格是 3D 和現(xiàn)實(shí)的,重點(diǎn)是燈光和紋理。 這幅畫的基調(diào)是驚奇和好奇,怪物睜大眼睛、張開嘴巴凝視著火焰。 它的姿勢(shì)和表情傳達(dá)出一種天真和俏皮的感覺,就好像它第一次探索周圍的世界一樣。 暖色調(diào)和戲劇性燈光的使用進(jìn)一步增強(qiáng)了圖像的舒適氛圍?!?/p>
也能很好的理解各種形式的運(yùn)鏡,runway 的運(yùn)鏡是通過外部設(shè)置鏡頭運(yùn)動(dòng)來實(shí)現(xiàn)的,只能支持很有限的時(shí)長(zhǎng),但是 sora 的運(yùn)動(dòng)幅度和逼真程度都遠(yuǎn)遠(yuǎn)大 runway 的運(yùn)鏡功能。清晰度也大大提升了,但是清晰度相比之下仿佛是一個(gè)不太顯眼的更新了。
提示:“美麗、白雪皚皚的東京城很繁華。 鏡頭穿過熙熙攘攘的城市街道,跟隨幾個(gè)人享受美麗的雪天并在附近的攤位購(gòu)物。 美麗的櫻花花瓣隨著雪花在風(fēng)中飛舞。”
3. 視頻一致性
Sora 還可以在單個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭,準(zhǔn)確地保留角色和視覺風(fēng)格。
現(xiàn)在的常見 AI 視頻工作流是用 AI 生成圖片,然后再用圖片生成視頻。還有之前 runway 出的多重筆刷功能:AI 視頻可控性里程碑更新:Runway 上線多重運(yùn)動(dòng)筆刷 其實(shí)都是在為了一致性服務(wù),并不是大家不喜歡直接用文生視頻,是文生視頻的一致性真的很差?,F(xiàn)在尚不清楚 Sora 的多鏡頭保持一致性是如何做到的。
提示:賽博朋克背景下機(jī)器人的生活故事。
可以看到風(fēng)格和機(jī)器人大體的的一致性都保持的很好,細(xì)節(jié)上只有機(jī)器人轉(zhuǎn)身后背后的處理有一些不一樣的地方(鏡頭二)。但是相對(duì)于之前還是一個(gè)巨大的進(jìn)步。
他們具體怎么實(shí)現(xiàn)的這種超強(qiáng)一致性尚不可知,官網(wǎng)上提到這次的視頻模型還是基于擴(kuò)散模型,但是擴(kuò)散模型如何做到這么好的效果可能需要等過段時(shí)間官方的技術(shù)論文了。
除了直接靠模型來保持一致性,基于圖片生成視頻和基于視頻生成視頻也是支持的,但是并不清楚是只支持它們的文生圖片生成視頻還是支持上傳第三方的圖片生成視頻,因?yàn)?openai 也說了它們?yōu)榱税踩詴?huì)審查每一幀。這一切需要等他們真正的開放產(chǎn)品給大家用的時(shí)候了。
雖然 sora 已經(jīng)足夠驚艷,但是仍然不是全能的,以下是幾個(gè) sora 的弱點(diǎn):
1. 它可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理
結(jié)合上面的介紹,這里是在復(fù)雜場(chǎng)景下可能難以模擬,并不是大部分時(shí)候不能模擬,這里官方給了一些案例。
提示:考古學(xué)家在沙漠中發(fā)現(xiàn)了一把普通的塑料椅子,他們小心翼翼地挖掘并除塵。提示:考古學(xué)家在沙漠中發(fā)現(xiàn)了一把普通的塑料椅子,他們小心翼翼地挖掘并除塵。
弱點(diǎn):在這個(gè)例子中,Sora 未能將椅子建模為剛性物體,導(dǎo)致物理交互不準(zhǔn)確。
2. 可能無法理解因果關(guān)系
提示:籃球穿過籃筐然后爆炸。
弱點(diǎn):不準(zhǔn)確的物理建模和不自然的物體“變形”的例子。
3. 可能混淆提示的空間細(xì)節(jié)
比如下面這個(gè)例子,它把人物和跑步機(jī)的方向搞錯(cuò)了。
提示:打印一個(gè)人跑步的場(chǎng)景,35 毫米電影膠片。提示:打印一個(gè)人跑步的場(chǎng)景,35 毫米電影膠片。
弱點(diǎn):sora 有時(shí)會(huì)產(chǎn)生身體上難以置信的動(dòng)作。
4. 難以精確描述隨著時(shí)間推移發(fā)生的事件
比如下面這個(gè)老奶奶吹蠟燭就沒有成功。
提示:一位白發(fā)梳得整整齊齊的老奶奶站在木制餐桌上的彩色生日蛋糕后面,蛋糕上插著無數(shù)蠟燭,臉上的表情是純粹的喜悅和幸福,眼中閃爍著幸福的光芒。 她傾身向前,輕輕地吹滅蠟燭,蛋糕上有粉紅色的糖霜和糖珠,蠟燭不再閃爍,祖母穿著一件飾有花卉圖案的淺藍(lán)色襯衫,幾個(gè)快樂的朋友和家人坐在桌邊。看到慶祝,失去焦點(diǎn)。 該場(chǎng)景拍攝精美,具有電影般的效果,展示了祖母和餐廳的 3/4 視圖。 溫暖的色調(diào)和柔和的燈光增強(qiáng)了情緒。
弱點(diǎn):模擬對(duì)象和多個(gè)角色之間的復(fù)雜交互通常對(duì)模型來說具有挑戰(zhàn)性,有時(shí)會(huì)導(dǎo)致問題的產(chǎn)生。
在其它 AI 視頻產(chǎn)品還在專研細(xì)分領(lǐng)域的時(shí)候,openai 直接在 sora 的頁面最后強(qiáng)調(diào),sora 只是他們構(gòu)建 AGI 和世界模型的一個(gè)重要里程碑,并不是終點(diǎn)。
這里不由得感嘆 AIGC 的創(chuàng)業(yè)真的太難了,去年 Openai 出了個(gè) GPTS 基本上把中間層的創(chuàng)業(yè)公司都搞死了,現(xiàn)在又突然出了一個(gè)技術(shù)斷層級(jí)別的文生視頻產(chǎn)品 Sora,AI 視頻公司也不知道該怎么辦了。
現(xiàn)在只能寄希望于它的論文是否有一些啟發(fā),并且如果 openai 還是貫徹一個(gè)非常嚴(yán)格的審查制度,那么可能會(huì)給一些開源模型一些機(jī)會(huì)。但是誰知道呢?AIGC 的技術(shù)迭代一直是跳躍式的,并不會(huì)給大家慢慢來的時(shí)間。今年又是刺激的一年。
歡迎關(guān)注作者微信公眾號(hào):「AIGC研修社」
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。
熱評(píng) 離家出走的帆高