今天除了 OpenAI 開源的 gpt-oss 之外,還有一個(gè)我覺得非常值得一說的東西。
就是 Google 發(fā)布的這個(gè)世界模型,Genie 3。
更多谷歌模型介紹:
作為一個(gè)將近 20 年的游戲玩家和近 10 年的 VR 玩家,我看到這個(gè)視頻的時(shí)候,心真的在怦怦跳。
本來 6 點(diǎn)鐘發(fā)了 gpt-oss 之后,想睡醒了再聊,下午發(fā)。
但是翻來覆去睡不著,于是翻身起床,決定來聊聊這玩意。
先看視頻吧。
這不是又一個(gè)簡單的可以互動(dòng)的 AI 視頻模型,更不是什么 Sora 或者 Veo 的簡單升級(jí)。
如果你僅僅把它理解為能實(shí)時(shí)互動(dòng)的 Sora,那我覺得,就完全低估了它的革命性了。
Genie 3 是一個(gè)世界模型 (World Model)。
對(duì)我而言,它更像是是一個(gè)創(chuàng)世引擎的雛形。
我們正站在一個(gè)新世界的入口,而 Google,剛剛為我們推開了一絲門縫。
要理解 Genie 3 的顛覆性,我們必須先弄明白一個(gè)概念。
世界模型。
這個(gè)詞聽起來很玄乎,但我們可以用一個(gè)簡單的比喻來理解。
比如說過去的視頻生成模型,Sora,更像是一位電影導(dǎo)演。
他已經(jīng)把整部電影拍完、剪好,加好特效,然后放給你看。畫面很精美,故事很完整,但你是純粹的觀眾,只能被動(dòng)接受,無法改變?nèi)魏问隆?/p>
而世界模型,則更像一個(gè)即時(shí)計(jì)算的視頻游戲引擎,每一步都根據(jù)當(dāng)前狀態(tài)和用戶操作來決定下一瞬間的畫面。
這個(gè)游戲引擎,搭起了一個(gè)世界,這個(gè)世界里有物理定律,比如東西往下掉,撞墻會(huì)反彈,有環(huán)境設(shè)定,甚至有 NPC 的行為邏輯。
它搭好舞臺(tái)后,就在那兒等著你的指令。
當(dāng)你按下手柄的按鍵,它會(huì)根據(jù)這個(gè)世界的規(guī)則,實(shí)時(shí)地計(jì)算并渲染出接下來會(huì)發(fā)生什么。
這就是 Genie 3 和 Sora、Veo3 之類的 AI 視頻產(chǎn)品最本質(zhì)的區(qū)別。
一個(gè)是預(yù)先錄制的電影,另一個(gè)是可實(shí)時(shí)演算的模擬器。
前者是敘事的終點(diǎn),后者是世界的起點(diǎn)。
Genie 3 的演示里,有一個(gè)直升機(jī)在天空中飛行的場(chǎng)景,之所以讓人震撼,是因?yàn)槊恳淮无D(zhuǎn)彎、每一次海面水波的蕩漾,都是模型對(duì)用戶實(shí)時(shí)輸入的即時(shí)反饋,所有的場(chǎng)景,都穩(wěn)定的始終如一。
要知道,這可不是在播放一段固定的視頻,所有的場(chǎng)景也不是事先建模好的 3D 場(chǎng)景,而是在你按下手柄方向鍵的那一刻,它,為你生成了全世界。
這種能力,我們?cè)谟螒蚶?,一般稱之為:
創(chuàng)世。
比如這個(gè)這只蜥蜴的世界。
還有這個(gè)山脈漂浮,懸崖倒置,河流在半空中扭曲的世界。
所有的一切,都是跟隨著你的前進(jìn)、你的移動(dòng)、你的跳躍,實(shí)時(shí)生成的。
這畫質(zhì)、這穩(wěn)定性、這一致性、這交互性。
太可怕了。
當(dāng)然,Genie 3 并非橫空出世的奇跡,羅馬也不是一天建成的。
他們之前就做過很多實(shí)驗(yàn)了。
GameNGen 是一個(gè)來自 2023 年初 DeepMind(準(zhǔn)確來說是 Google Research)的實(shí)驗(yàn)性項(xiàng)目,全名叫做 Diffusion Models Are Real-Time Game Engines。
當(dāng)時(shí)基于毀滅戰(zhàn)士做了一個(gè)很短的可控視頻實(shí)時(shí)生成,還挺火的。
不過那時(shí)候還是非常的偏實(shí)現(xiàn)性質(zhì),太糙了,分辨率也只有可憐的 320p。
接著,他們做出了 Genie1 和 Genie 2。
分辨率提升到了 360p,應(yīng)用范圍也擴(kuò)大到了更通用的 3D 環(huán)境。
但注意看,代價(jià)是什么?交互延遲那一欄寫著“非實(shí)時(shí)”,非常的卡頓。
為了追求更復(fù)雜的環(huán)境,他們犧牲了最重要的實(shí)時(shí)性。
同時(shí),交互時(shí)長也只從幾秒提升到了 10-20 秒。
在探索世界模型的同時(shí),另一條 AI 視頻的路線也在狂飆突進(jìn),代表作大家肯定都知道了,就是 Veo。
Veo 把分辨率直接干到了 4K 級(jí)別,生成的畫面也極其通用和逼真,可以說是現(xiàn)在最牛逼的 AI 視頻模型了。
但它的本質(zhì),依然是 AI 視頻模型,沒有交互。
它只負(fù)責(zé)把畫質(zhì)和真實(shí)感這條路走到極致。
然后,就是今天,主角 Genie 3 登場(chǎng)了。
它像一個(gè)集大成者,終于解決了前輩們無法調(diào)和的矛盾。
交互延遲:實(shí)時(shí),它找回了 GameNGen 最初的夢(mèng)想。
交互時(shí)長:數(shù)分鐘, 相比 Genie 2 的十幾秒,是數(shù)量級(jí)的飛躍。
控制方式:導(dǎo)航+可提示世界事件,不僅能讓你行動(dòng),還可以直接用語言創(chuàng)世。
分辨率:720p,一個(gè)非常聰明的選擇,是在保證實(shí)時(shí)性和互動(dòng)時(shí)長的前提下,找到的最佳畫質(zhì)平衡點(diǎn)。
理解了這段歷史,我們?cè)賮砜础耙恢滦浴边@個(gè)致命難題,就會(huì)有更深的感觸。
在 Genie3 里面,開頭是一副黑板,上面有圖、有字,你走上前去,細(xì)細(xì)觀摩,然后走到一邊,看向窗外,過了一分鐘,再回來,黑板上的內(nèi)容,只字未改,依舊存在。
這個(gè)一致性,這個(gè)記憶能力,太恐怖了。
還有這個(gè)視頻。
他們是可以保證,建筑物左側(cè)的樹木在整個(gè)互動(dòng)過程中保持一致,即使它們時(shí)而進(jìn)入視野,時(shí)而又離開視野。
太牛逼了。
之前應(yīng)該也就一個(gè)月左右,我體驗(yàn)過一個(gè)叫 Odyssey 的產(chǎn)品,也是世界模型。
坦誠的講,那是一次非常糟糕的體驗(yàn)。
我控制角色往前走了也就十幾秒,整個(gè)畫面就開始崩壞、扭曲。
最嚇人的是,每次當(dāng)我回頭看走過的路時(shí),身后的世界完全變了樣,而且是每回頭一次,它就變一次。
那種感覺,就像你走在一個(gè)不斷溶解、不斷重組的恐怖空間里,極度缺乏安全感。
我在一個(gè)世界模型里,走出了恐怖游輪的感覺。
而 Genie 3 最牛逼的地方,恰恰就是在這個(gè)要命的問題上取得了突破。
當(dāng)它的穩(wěn)定交互時(shí)長能從十幾秒躍升到數(shù)分鐘時(shí),就意味著我們終于可以從 Odyssey 那種回頭即崩的恐怖體驗(yàn),邁向一個(gè)至少在幾分鐘內(nèi)值得信賴和探索的穩(wěn)定世界。
所以,Genie 3 在我看來,就像一場(chǎng)我們能部分控制的清明夢(mèng)。
絢爛、多變、充滿驚喜,但目前還像個(gè)隨時(shí)可能醒來的夢(mèng)。
即便如此,它所展現(xiàn)出的可能性,已經(jīng)給了我前所未有的想象空間。
你甚至可以在這個(gè)夢(mèng)里,就跟創(chuàng)世神一樣,隨意的修改。
這種創(chuàng)世引擎一旦成熟,它對(duì)現(xiàn)有部分行業(yè)的沖擊將是核彈級(jí)的。
我玩了這么多年 VR,其實(shí)一直以來,最大的痛點(diǎn)就是內(nèi)容匱乏。
我們體驗(yàn)到的依然是一個(gè)個(gè)稀少的、孤立的、精美的 3D 場(chǎng)景,而不是一個(gè)活生生的世界。
未來,你戴上 VR 頭顯,不再是打開一個(gè) App 列表,而是對(duì)你的 AI 助手說一句話:帶我去一個(gè)雨夜的賽博朋克城市,要能聽到遠(yuǎn)處警笛聲,街角要有一個(gè)賣拉面的小攤。
然后,一個(gè)獨(dú)一無二、可供你實(shí)時(shí)探索的世界,就為你而生了。
VR 將從一個(gè)內(nèi)容消費(fèi)的設(shè)備,變成一個(gè)世界生成的入口,解決了內(nèi)容的問題,才有元宇宙真正該有的樣子。
這也才是綠洲,真正的魅力。
對(duì)于游戲行業(yè)來說,也是。
現(xiàn)代 3A 的開發(fā)成本動(dòng)輒數(shù)億美金,其中絕大部分都花在了構(gòu)建龐大而精細(xì)的游戲世界上,這是一個(gè)勞動(dòng)密集型、資本密集型的產(chǎn)業(yè)。
比如說未來的《上古卷軸 6》或者《GTA7》,又或者《博德之門 4》,除了主線劇情,我們?cè)谟螒蜻^程中,跟一個(gè)有個(gè)人意識(shí)的 NPC 聊天,然后觸發(fā)了一個(gè)全新的支線任務(wù)。
“一個(gè)被巨龍摧毀的村莊的系列任務(wù),我要在廢墟里尋找幸存者,并找到巨龍的巢穴?!?/p>
當(dāng)然,我并不是想表達(dá),純粹隨機(jī)的故事或游戲能好玩到哪里去。講故事、做游戲,想讓大家覺得好看、好玩是非常難的一件事,規(guī)則的約束至關(guān)重要。
世界模型的可貴之處在于,它能在精妙的人類規(guī)則設(shè)計(jì)下,填充無窮無盡、合乎邏輯的動(dòng)態(tài)細(xì)節(jié)。
游戲的延展,被巨幅拓寬,制作人或者設(shè)計(jì)者,完全可以指定這個(gè) AI 世代的隨機(jī)規(guī)則,就像生成《無人深空》里面的星球一樣,用規(guī)則來約束世界模型的生成,在保證游戲性和故事性的基礎(chǔ)上,讓玩家的體驗(yàn),不再首先與人力和想象力,而是把這個(gè)世界的主導(dǎo)權(quán),交還一部分給玩家。
玩家不再只是玩家,更是關(guān)卡設(shè)計(jì)師、任務(wù)發(fā)布者、甚至是世界觀的共創(chuàng)者。
官方演示里,智能體在 Genie 3 生成的世界里完成任務(wù),我覺得這已經(jīng)揭示了未來的冰山一角。
除了 VR、游戲,還有電影。
電影誕生一百多年來,其實(shí)也一直是線性的、導(dǎo)演中心制的,觀眾只能被動(dòng)地跟隨鏡頭,看一個(gè)被安排好的故事。
直到去年一些互動(dòng)影游火了以后,講故事的方法,稍微開始會(huì)有一些變化了,但,互動(dòng)影游的情節(jié),本質(zhì)上也是一個(gè)被安排好的故事。
Genie 3,尤其是它的可提示世界事件,更像是一種全新敘事形式的誕生。
未來的電影,可能也更像一場(chǎng)由你主導(dǎo)的夢(mèng)境。
當(dāng)你看到主角面臨一個(gè)抉擇時(shí),你可以暫停,然后用語言導(dǎo)演接下來的劇情。
“讓天開始下雪,讓他們?cè)谘┲袚肀А!被蛘撸白尫磁傻碾娫捦蝗豁懫?,打斷他們的?duì)峙?!?/p>
你不再是觀眾,而是擁有部分神之權(quán)限的參與者。
這比《黑鏡:潘達(dá)斯奈基》那種選擇分支的互動(dòng)劇要走得遠(yuǎn)得多。
它不是在 A 和 B 之間做選擇,而是在一個(gè)擁有無限可能性的空間里,進(jìn)行自由創(chuàng)作。
電影和游戲的邊界,將在這里徹底消融。
我一想到那樣的未來,我就心潮澎湃。
當(dāng)然,我們也必須清醒地看到 Genie 3 當(dāng)下的局限性。
只能維持幾分鐘的互動(dòng)時(shí)長、無法精確模擬真實(shí)世界、文本渲染能力差……
以及,現(xiàn)在還沒有對(duì)公眾開放,真正產(chǎn)品上線的時(shí)候,效果不知道會(huì)不會(huì)打折。
它就像一百多年前盧米埃爾兄弟在咖啡館里放映的第一部電影《火車進(jìn)站》,粗糙、黑白、無聲,甚至可能讓當(dāng)時(shí)的人感到恐慌。
但這不重要。
重要的是,它證明了一件事:路,是通的。
過去,我們通過文字和口述來傳承神話。
后來,我們通過繪畫和電影來描繪神話。
而今天,我們即將獲得親手創(chuàng)造神話的能力。
那問題來了。
“你,究竟想要一個(gè)什么樣的世界呢?”
謝謝你看我的文章,我們,下次再見。
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。
發(fā)評(píng)論!每天贏獎(jiǎng)品
點(diǎn)擊 登錄 后,在評(píng)論區(qū)留言,系統(tǒng)會(huì)隨機(jī)派送獎(jiǎng)品
2012年成立至今,是國內(nèi)備受歡迎的設(shè)計(jì)師平臺(tái),提供獎(jiǎng)品贊助 聯(lián)系我們
AI輔助海報(bào)設(shè)計(jì)101例
已累計(jì)誕生 753 位幸運(yùn)星
發(fā)表評(píng)論 為下方 7 條評(píng)論點(diǎn)贊,解鎖好運(yùn)彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評(píng) ↓