AI 視頻新王者誕生!一文盤點(diǎn) Sora 模型  14 項(xiàng)功能特點(diǎn)!

大家好,我是花生~

2 月 16 日 OpenAI 發(fā)布了一個(gè)新的 AI 視頻生成模型 Sora,它可以根據(jù)文本生成 60s 的高質(zhì)量視頻,完全突破了之前 AI 文生視頻存在的各種局限,所以一出現(xiàn)就引起廣泛關(guān)注和熱烈討論,大家應(yīng)該對它都有所了解。今天就根據(jù)網(wǎng)上已公布的視頻,對 Sora 的功能特性進(jìn)行一個(gè)盤點(diǎn)總結(jié),其中包含與 Runway、Pika 等 AI 視頻工具的生成效果對比,讓大家對 Sora 的能力有一個(gè)更直觀全面的了解。

相關(guān)推薦:

一、60s 超長視頻

之前優(yōu)設(shè)已經(jīng)推薦過 AI 視頻工具,比如 Runway、Pika、MoonVally、Domo AI、AnimateDiff、Stable Video 等,它們文生視頻長度都在 3-7 秒之間(Aminatediff 和 Deforum 因形式不同,不列入此處的比較),而 Sora 直接將時(shí)長最高提升到 60s,是之前的 10 倍,這樣的長度是放在之前大家可能覺得要好幾年才能實(shí)現(xiàn),但是 Sora 讓其一夜之間成為現(xiàn)實(shí)。

視頻來源:Twitter@ Gabor Cselle

二、超高的文生視頻質(zhì)量

接觸過 AI 視頻生成的小伙伴肯定清楚,文本生成的視頻效果最難控制,很容易出現(xiàn)畫面扭曲、元素丟失情況,或者視頻根本看不出動態(tài)。所以不少 AI 視頻工具都轉(zhuǎn)向在圖生視頻或者視頻轉(zhuǎn)繪上發(fā)力,比如 Runway 的 Motion Brush 筆刷,通過在圖像上涂抹指定區(qū)域添加動效;以及 Domo AI,可以將真實(shí)視頻轉(zhuǎn)為多種不同的風(fēng)格,這些方式讓 AI 視頻更可控,因此質(zhì)量更好。

而 Sora 的出現(xiàn)則完全顛覆了人們對文生視頻的認(rèn)知,不僅直接能通過文本生成各種風(fēng)格的高清的視頻,還支持多樣化的視頻時(shí)長、分辨率和畫幅比,并且能始終保持畫面主體位于視頻中央,呈現(xiàn)出最佳構(gòu)圖。

Sora 根據(jù)一組提示詞生成的三組不同畫幅的視頻

三、連貫一致的視頻內(nèi)容

Sora 生成的視頻中,隨時(shí)長增加人物及場景元素依舊能保持自己原有原有的狀態(tài),不會扭曲變形,所以視頻前后連貫性非常好。即使元素被遮擋或者短暫離開畫面,Sora 依舊能在后續(xù)準(zhǔn)確呈現(xiàn)這一對象的相關(guān)特征。這就解決了之前大家一直很關(guān)心的視頻中人物一致性問題,也許之后我們就無需后期拼接,而是僅憑文本就生成一個(gè)劇情完整的短視頻了。

四、多視角穩(wěn)定呈現(xiàn)

Sora 能針對一個(gè)場景或者一個(gè)主題進(jìn)行多視角呈現(xiàn),比如針對“下雪天的街道”主體,可以同時(shí)生成手部玩雪特寫、街道元素特寫、行人走動中景、街道全景等分鏡。

下面是從 Sora 視頻中截取一段,可以看到隨著鏡頭旋轉(zhuǎn),新視角中無論是機(jī)器人還是背后環(huán)境的細(xì)節(jié)都能穩(wěn)定呈現(xiàn),如同 CG 建模一樣精準(zhǔn)。之前為大家介紹過 Stable zero 123,一種可以生成多視角圖像的 AI 模型,但效果遠(yuǎn)比不上在視頻中的呈現(xiàn),也許 Sora 能為我們提供一種生成角色三視圖的新方法。

五、自然流暢的動態(tài)

推特網(wǎng)友 @Poonam Soni 制作的了幾組 Sora 與 Runway 的效果對比。無論是小狗打鬧、云朵的飄動還是袋鼠跳舞,Sora 的動態(tài)都非常自然,就像我們在現(xiàn)實(shí)中看到的那樣;相比之下 Runway 生成的動作總有一種 “慢放”的感覺,不夠自然。

六、逼真的鏡頭運(yùn)動

在 Runway、Pika 等工具中,如果想實(shí)現(xiàn)鏡頭運(yùn)動,需要使用額外的 --motion 參數(shù),然后從平移、旋轉(zhuǎn)、縮放中等選項(xiàng)中選一種。而 Sora 中可以直接列理解文本提示詞中有關(guān)視頻的鏡頭運(yùn)動,比如提示詞中是 “鏡頭跟在一輛白色復(fù)古越野車后面”,在長達(dá) 20s 的視頻內(nèi),無論道路如何彎曲,鏡頭真的能始終跟隨這汽車,讓其處于畫面中央。Sora 也能在一個(gè)視頻中使用多種鏡頭運(yùn)動。

即使沒有鏡頭提示,Sora 也能主動地添加鏡頭動作,比如下面的視頻,花盛開到快超出屏幕時(shí),鏡頭會自動上移時(shí)。以展現(xiàn)完整的主體;以及鏡頭有聚焦在老人面部時(shí),帶著一種手持拍攝的抖動,這是用 motion 設(shè)置也無法得到的效果,讓人感覺這是真的視頻而非“會動的圖片”。
https://twitter.com/i/status/1758295719788822866

七、準(zhǔn)確的提示詞理解

對于“船在咖啡杯里”、"用白熾燈做殼的寄居蟹" 這樣比較復(fù)雜的概念,Sora 能準(zhǔn)確理解并呈現(xiàn)出正確的視頻,Runway、Pika、Morph 等目前則無法做到。在 Sora 的研究報(bào)告中,官方提到他們會利用 GPT 將用戶的簡短提示轉(zhuǎn)換成更長的詳細(xì)說明,然后發(fā)送給視頻模型,以得到更好的生成效果。

視頻來源:twitter@ @Poonam Soni

八、圖生視頻

Sora 雖然自稱是文生視頻模型,但它也可以將圖像轉(zhuǎn)為動態(tài)視頻,而且動態(tài)效果比其他 AI 視頻都好,還不會出現(xiàn)轉(zhuǎn)換后畫質(zhì)下降的情況。Sora 的圖生視頻功能并不是簡單的為已有元素添加動態(tài),還能生成新的內(nèi)容(比如為云彩字添加了一個(gè)彈出的動效)。

視頻來源:twitter@ Anu Aakash

九、用文本編輯視頻

Sora 可以僅通過文本對視頻進(jìn)行編輯,對一個(gè)寫畫風(fēng)視頻加上 “rewrite the video in a pixel art style” 提示,可以將其變?yōu)橄袼仫w哥,加上 ““make it go underwater”可以替換畫面元素,而且新元素與整體融合自然然。之前圖像進(jìn)行局部重繪都是有些困難的事,Sora 這是直接做到了對視頻內(nèi)容的完美局部重繪,模型的能力真的令人驚嘆。

十、生成完美循環(huán)動畫

Sora 支持在一個(gè)視頻的基礎(chǔ)上生成向前或向后延伸生成新內(nèi)容,并且做到無縫銜接。下面 2 個(gè)視頻是由同一段視頻向前擴(kuò)展得來的,所以結(jié)尾相同;而如果對一個(gè)視頻同時(shí)操作向前和向后延伸,就能好得到一個(gè)完美的循環(huán)動畫。這項(xiàng)功能目前還沒有其他能實(shí)現(xiàn)的 AI 工具,如果能落地對創(chuàng)意視頻生成肯定非常有幫助。

十一、無縫銜接視頻

Sora 可以在兩個(gè)視頻之間逐步插值,在主題和場景構(gòu)圖完全不同的視頻之間創(chuàng)建無縫過渡,比如由真實(shí)的海島變?yōu)橐粋€(gè) 3D 卡通風(fēng)格的微縮雪地村莊,或者讓一只蜥蜴慢慢變成一只鳥。官方用的 “無縫過渡” 絕不是夸張,仔細(xì)看視頻你會發(fā)現(xiàn) sora 真的會自己找角度讓視頻轉(zhuǎn)換更自然,這點(diǎn)在影視特效制作上應(yīng)該也大有可為。

十二、文生圖

圖像就是單幀的視頻,Sora 既然能生成高質(zhì)量的視頻,那生成高質(zhì)量的圖像自然也不在話下,并且支持多種尺寸,最高分辨率到達(dá) 2048*2048 px。我用 Sora 官方給出的提示詞,在 Midjourney 的 V6 模型中重新生成一遍,下面的效果對比,你覺得哪一個(gè)更好?

AI 視頻新王者誕生!一文盤點(diǎn) Sora 模型  14 項(xiàng)功能特點(diǎn)!

AI 視頻新王者誕生!一文盤點(diǎn) Sora 模型  14 項(xiàng)功能特點(diǎn)!

十三、模擬真實(shí)世界的交互

Sora 可以模擬真實(shí)物理世界中物體的運(yùn)作狀態(tài),比如畫筆落下后畫布上有對應(yīng)的痕跡留下,并且持續(xù)保留;被咬了一個(gè)口的漢堡上會有一個(gè)缺口等。不過這個(gè)功能并不穩(wěn)定,處理復(fù)雜交互場景也會出錯(cuò),或者混淆空間細(xì)節(jié)。

十四、模擬虛擬世界

在 Sora 的提示詞中加上 Minecraft 后,除了視頻會變成體素風(fēng)格,Sora 還能通過基礎(chǔ)策略控制玩家,并高保真地呈現(xiàn)世界及其動態(tài),達(dá)到真假難辨的地步。這或許會改變視頻游戲的制作及玩法,對 AR、VR 的虛擬空間搭建應(yīng)該也會有幫助。

那么以上就是本期為大家盤點(diǎn)的 AI 視頻生成模型 Sora 的相關(guān)功能,如果想了解為什么 Sora 能做到這么厲害,可以去閱讀 OpenAI 官方的研究報(bào)告,里面有相關(guān)介紹。

Sora 模型技術(shù)報(bào)告: https://openai.com/research/video-generation-models-as-world-simulators

想了解更多 AI 繪畫工具的話,歡迎關(guān)注 優(yōu)設(shè) AI 自學(xué)網(wǎng),每天都有最新的 AI 神器及資訊推薦 ~ 也歡迎大家掃描下方的二維碼加入“優(yōu)設(shè) AI 繪畫交流群”,和我及其他設(shè)計(jì)師一起交流學(xué)習(xí) AI 知識~

AI 視頻新王者誕生!一文盤點(diǎn) Sora 模型  14 項(xiàng)功能特點(diǎn)!

推薦閱讀:

贊賞
收藏 62
點(diǎn)贊 43

復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。