這兩天,在 X 上看到一個(gè)很酷的 2D 動(dòng)漫 AI 視頻。
我直接放一下,強(qiáng)烈建議看完。
當(dāng)時(shí)第一遍看的時(shí)候,不知道為什么,心里的二次元之火熊熊燃燒。
我也一直都是那個(gè),熱愛紙片人的少年。
片子在動(dòng)漫畫風(fēng)的穩(wěn)定性上,強(qiáng)的可怕。
這個(gè)作者,是一個(gè)非常喜歡做 AI 視頻,而且是動(dòng)漫風(fēng)格 AI 視頻的創(chuàng)作者,叫 Naegiko。
雖然片子只有 10 萬(wàn)播放,但是,很多大號(hào)都直接轉(zhuǎn)載他的,總播放量破百萬(wàn)肯定是有的了。
這個(gè) AI 視頻的工具,來(lái)自 Vidu。
在評(píng)論區(qū)的下面,哥們也在給所有喜歡做動(dòng)漫風(fēng)格的人,安利 Vidu。
又是 Vidu。
其實(shí)很多人上周也在催我寫 Vidu1.5 版本的更新,但是事情實(shí)在太多,本來(lái)上周五打算發(fā),結(jié)果出了點(diǎn)小毛病一波直接干到醫(yī)院,一拖也就拖到了今天。
其實(shí)坦率的講,現(xiàn)在的視頻大模型,在寫實(shí)上效果都能卷的還不錯(cuò),但是在一些風(fēng)格化的動(dòng)漫視頻上,經(jīng)常會(huì)出現(xiàn)一些變形和識(shí)別錯(cuò)誤。
甚至有的還會(huì)把你給的動(dòng)漫的參考圖,直接給你在過程中變成寫實(shí)或者那種 3D 風(fēng)格的,穩(wěn)定性很差。
而對(duì)于 Vidu 來(lái)說(shuō),在我測(cè)試的這幾個(gè)月里,Vidu 的 2D 風(fēng)格,就是現(xiàn)在最強(qiáng)的,也是他們之前,最大的特色。
但是 Vidu1.5 的這波更新,如果只是模型質(zhì)量提高了一些,語(yǔ)義理解強(qiáng)了一些,其實(shí)坦率的講也沒什么好寫的了,大家對(duì) AI 視頻模型的更新已經(jīng)有點(diǎn)趨近于去年語(yǔ)言大模型的感覺了,已經(jīng)有點(diǎn)免疫了。
需要一些更直觀的功能,才能讓大家感覺到,很酷的感覺。
而 Vidu1.5 版本這次的更新,剛好就有一個(gè)我覺得劃時(shí)代的新功能,叫:
我先放兩個(gè)視頻,讓大家先直觀感受一下,這個(gè)東西是個(gè)啥。
衣服是梅西的 10 號(hào)球服,轉(zhuǎn)過身來(lái),是宋小寶,然后振臂高呼。
來(lái)自朋友@卡爾之前做的一個(gè) case,馬斯克和甄嬛漫步在故宮中,還動(dòng)態(tài)非常大的給屏幕面前比了個(gè)大拇指。
現(xiàn)在應(yīng)該能模糊的感覺到了一些,來(lái)自多主體一致性的強(qiáng)大了吧?
用最簡(jiǎn)單的話解釋,就是你可以傳至多 3 張圖。來(lái)實(shí)現(xiàn)任意人物、任意物品、任意場(chǎng)景的一致性。
比如梅西那個(gè) case,就是上傳了梅西的球服+宋小寶的臉,然后用一段 Prompt:梅西背對(duì)著鏡頭,慢慢轉(zhuǎn)過頭是圖中的男子在沖著鏡頭笑。直接生成的。
而馬斯克和甄嬛,則是上傳了一張馬斯克的、一張甄嬛的、一張故宮的圖。然后用一段 Promtp:一個(gè)穿著黑色衣服褲子的男人和一個(gè)穿著黃色中國(guó)古代服裝的女人走在宮殿外的路上。
就出來(lái)了完美一致的視頻。
這就是 Vidu1.5 這波更新、最酷的功能,多主體一致性。
在我看來(lái),可能是現(xiàn)在很多人意識(shí)不到,但是在 AI 視頻領(lǐng)域,可能劃時(shí)代的一個(gè)技術(shù)。
我們常說(shuō) AI 視頻想進(jìn)入專業(yè)影視領(lǐng)域,除了最終質(zhì)量之外,一直以來(lái)都有三個(gè)一致性要解決:
風(fēng)格一致性、角色一致性、場(chǎng)景一致性。
如果連在單個(gè)片段里,這三個(gè)一致性都沒法解決的話,那別提電影這種最高殿堂的產(chǎn)物了,連一些劇集都?jí)騿堋?/p>
而過往,風(fēng)格一致性已經(jīng)解決的還行了,角色一致性 Vidu 在今年 7 月份的更新中其實(shí)上了一版,而場(chǎng)景一致性,一直以來(lái)幾乎沒有任何解決方案。
這一波,Vidu1.5 直接用最簡(jiǎn)單開箱即用的方式。
解決了所有單片段中的一致性。
很強(qiáng),非常強(qiáng)。
你終于可以不用擔(dān)心,你的廣告、你的片子中,人物角色形象不一致的問題了,也不用去用那個(gè)蹩腳的 Midjourney 出圖再圖生視頻的流程了,而是直接找到你想要的,扔進(jìn)去,加一段 prompt,完事。
這個(gè)影響,可能非常深遠(yuǎn),更是一道,黎明的曙光。
Vidu 網(wǎng)址在此: www.vidu.studio
進(jìn)去登錄以后,就能看到這個(gè)參考生視頻了,打開那個(gè)多主體一致性功能,你就可以傳最多三張圖片作為參考。
比如,我們傳一個(gè)奶龍和一個(gè)雞哥上去,讓他兩,來(lái)一波開心的跳躍。
Vidu1.5 的速度也非常的快,我選的 720P,不到 1 分鐘,就跑出來(lái)了,速度上跟 Runway 是一個(gè)級(jí)別的了。
效果也是非常的魔性。
我能對(duì)著他兩跳看一個(gè)小時(shí)。
雞哥和奶龍,在主體上,幾乎是跟我傳上去的圖片,一摸一樣,完美的實(shí)現(xiàn)了一致性。
你可以用這三個(gè)圖片格子,來(lái)自由組合,來(lái)實(shí)現(xiàn)任意人物、任意物品、任意場(chǎng)景的一致性。
這個(gè)事情非常的好玩。
比如上面奶龍和雞哥的就是,人物正面+人物正面。
你也可以傳一張人物背面+人物正面。
比如還是宋小寶。
人物臉可以傳兩張,更強(qiáng)的保證人臉的一致性。
Prompt 寫:女生轉(zhuǎn)過身發(fā)現(xiàn)臉是該男子。
對(duì)不起了宋小寶老師。。。。。
還可以是一個(gè)人物的三視圖,直接實(shí)現(xiàn) 3D 人物級(jí)別的一致性,3 張圖,就可以直接跳過建模階段直接出成片。
我隨手拍了我非常喜歡的 Dimoo,之前的熊貓款的三視圖。然后扔到 Vidu 里。
然后不到 1 分鐘,一段 Dimoo 在森林里的視頻就做完了。
穩(wěn)定的要死,以后這種片子,誰(shuí)還建模渲染啊。。。
你也可以,人物+物品。
比如一個(gè)女人喝一口可口可樂。
向偉大的 AI 致敬。
甚至,Vidu1.5 的多主體一致性不僅對(duì)角色是一場(chǎng)革命,對(duì)電商廣告也是。
直接物品+場(chǎng)景,以后還渲染個(gè)屁啊。
比如 APPLE watch。
我讓他在這個(gè)場(chǎng)景里面來(lái)個(gè) 360 度旋轉(zhuǎn)。
這個(gè)多主體一致性,絕對(duì)是我最近見過,可能是 AI 視頻領(lǐng)域,最有趣也是最有用的功能之一。
想起來(lái)很多年以前,羅子雄在 TED 上做的一個(gè)演講。
講的就是創(chuàng)意。
創(chuàng)意其實(shí)很多時(shí)候就是借鑒和組合的能力。
比如把這些元素,隨機(jī)組合。
就會(huì)得到很多很多有的東西。
而 Vidu1.5 這個(gè)多主體一致性,其實(shí)也是組合,你可以不斷的組合。
人物背面+人物正面、人物三視圖、物體+場(chǎng)景、人物+場(chǎng)景、人物+物體等等等等。
太多了。
甚至你如果覺得三張圖片不夠用,還可以上傳的時(shí)候,將多個(gè)主體拼接到一張圖中上傳,展開無(wú)限可能。
新的技術(shù),總是能進(jìn)一步推升我們的邊界,讓我們的想象力,終于可以更為宏遠(yuǎn)的延伸。
感謝 Vidu,感謝這個(gè)多主體一致性。
我覺得,我又可以,繼續(xù)造夢(mèng)了。
國(guó)產(chǎn)的 AI 視頻,也真的是越來(lái)越好了。
Vidu、可靈、海螺、即夢(mèng)、pixverse,每一個(gè)都在市場(chǎng)上,殺出了自己的一條血路。
為你們,獻(xiàn)上我最崇高的敬意。
以及,最好的祝愿。
歡迎關(guān)注作者的微信公眾號(hào):數(shù)字生命卡茲克
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。
熱評(píng) 乏味的雨天