此即未來!Google重磅上線通用世界模型Genie 3

今天除了 OpenAI 開源的 gpt-oss 之外,還有一個(gè)我覺得非常值得一說的東西。

就是 Google 發(fā)布的這個(gè)世界模型,Genie 3。

更多谷歌模型介紹:

此即未來!Google重磅上線通用世界模型Genie 3

作為一個(gè)將近 20 年的游戲玩家和近 10 年的 VR 玩家,我看到這個(gè)視頻的時(shí)候,心真的在怦怦跳。

本來 6 點(diǎn)鐘發(fā)了 gpt-oss 之后,想睡醒了再聊,下午發(fā)。

但是翻來覆去睡不著,于是翻身起床,決定來聊聊這玩意。

先看視頻吧。

當(dāng)視頻在手機(jī)上無法加載,可前往PC查看。

這不是又一個(gè)簡單的可以互動(dòng)的 AI 視頻模型,更不是什么 Sora 或者 Veo 的簡單升級(jí)。

如果你僅僅把它理解為能實(shí)時(shí)互動(dòng)的 Sora,那我覺得,就完全低估了它的革命性了。

Genie 3 是一個(gè)世界模型 (World Model)。

對(duì)我而言,它更像是是一個(gè)創(chuàng)世引擎的雛形。

我們正站在一個(gè)新世界的入口,而 Google,剛剛為我們推開了一絲門縫。

要理解 Genie 3 的顛覆性,我們必須先弄明白一個(gè)概念。

世界模型。

這個(gè)詞聽起來很玄乎,但我們可以用一個(gè)簡單的比喻來理解。

比如說過去的視頻生成模型,Sora,更像是一位電影導(dǎo)演。

他已經(jīng)把整部電影拍完、剪好,加好特效,然后放給你看。畫面很精美,故事很完整,但你是純粹的觀眾,只能被動(dòng)接受,無法改變?nèi)魏问隆?/p>

此即未來!Google重磅上線通用世界模型Genie 3

而世界模型,則更像一個(gè)即時(shí)計(jì)算的視頻游戲引擎,每一步都根據(jù)當(dāng)前狀態(tài)和用戶操作來決定下一瞬間的畫面。

這個(gè)游戲引擎,搭起了一個(gè)世界,這個(gè)世界里有物理定律,比如東西往下掉,撞墻會(huì)反彈,有環(huán)境設(shè)定,甚至有 NPC 的行為邏輯。

它搭好舞臺(tái)后,就在那兒等著你的指令。

當(dāng)你按下手柄的按鍵,它會(huì)根據(jù)這個(gè)世界的規(guī)則,實(shí)時(shí)地計(jì)算并渲染出接下來會(huì)發(fā)生什么。

這就是 Genie 3 和 Sora、Veo3 之類的 AI 視頻產(chǎn)品最本質(zhì)的區(qū)別。

一個(gè)是預(yù)先錄制的電影,另一個(gè)是可實(shí)時(shí)演算的模擬器。

前者是敘事的終點(diǎn),后者是世界的起點(diǎn)。

Genie 3 的演示里,有一個(gè)直升機(jī)在天空中飛行的場(chǎng)景,之所以讓人震撼,是因?yàn)槊恳淮无D(zhuǎn)彎、每一次海面水波的蕩漾,都是模型對(duì)用戶實(shí)時(shí)輸入的即時(shí)反饋,所有的場(chǎng)景,都穩(wěn)定的始終如一。

當(dāng)視頻在手機(jī)上無法加載,可前往PC查看。

要知道,這可不是在播放一段固定的視頻,所有的場(chǎng)景也不是事先建模好的 3D 場(chǎng)景,而是在你按下手柄方向鍵的那一刻,它,為你生成了全世界。

這種能力,我們?cè)谟螒蚶?,一般稱之為:

創(chuàng)世。

比如這個(gè)這只蜥蜴的世界。

當(dāng)視頻在手機(jī)上無法加載,可前往PC查看。

還有這個(gè)山脈漂浮,懸崖倒置,河流在半空中扭曲的世界。

當(dāng)視頻在手機(jī)上無法加載,可前往PC查看。

所有的一切,都是跟隨著你的前進(jìn)、你的移動(dòng)、你的跳躍,實(shí)時(shí)生成的。

這畫質(zhì)、這穩(wěn)定性、這一致性、這交互性。

太可怕了。

當(dāng)然,Genie 3 并非橫空出世的奇跡,羅馬也不是一天建成的。

此即未來!Google重磅上線通用世界模型Genie 3

他們之前就做過很多實(shí)驗(yàn)了。

GameNGen 是一個(gè)來自 2023 年初 DeepMind(準(zhǔn)確來說是 Google Research)的實(shí)驗(yàn)性項(xiàng)目,全名叫做 Diffusion Models Are Real-Time Game Engines。

此即未來!Google重磅上線通用世界模型Genie 3

當(dāng)時(shí)基于毀滅戰(zhàn)士做了一個(gè)很短的可控視頻實(shí)時(shí)生成,還挺火的。

不過那時(shí)候還是非常的偏實(shí)現(xiàn)性質(zhì),太糙了,分辨率也只有可憐的 320p。

接著,他們做出了 Genie1 和 Genie 2。

此即未來!Google重磅上線通用世界模型Genie 3

分辨率提升到了 360p,應(yīng)用范圍也擴(kuò)大到了更通用的 3D 環(huán)境。

但注意看,代價(jià)是什么?交互延遲那一欄寫著“非實(shí)時(shí)”,非常的卡頓。

為了追求更復(fù)雜的環(huán)境,他們犧牲了最重要的實(shí)時(shí)性。

同時(shí),交互時(shí)長也只從幾秒提升到了 10-20 秒。

在探索世界模型的同時(shí),另一條 AI 視頻的路線也在狂飆突進(jìn),代表作大家肯定都知道了,就是 Veo。

Veo 把分辨率直接干到了 4K 級(jí)別,生成的畫面也極其通用和逼真,可以說是現(xiàn)在最牛逼的 AI 視頻模型了。

但它的本質(zhì),依然是 AI 視頻模型,沒有交互。

它只負(fù)責(zé)把畫質(zhì)和真實(shí)感這條路走到極致。

然后,就是今天,主角 Genie 3 登場(chǎng)了。

它像一個(gè)集大成者,終于解決了前輩們無法調(diào)和的矛盾。

交互延遲:實(shí)時(shí),它找回了 GameNGen 最初的夢(mèng)想。

交互時(shí)長:數(shù)分鐘, 相比 Genie 2 的十幾秒,是數(shù)量級(jí)的飛躍。

控制方式:導(dǎo)航+可提示世界事件,不僅能讓你行動(dòng),還可以直接用語言創(chuàng)世。

分辨率:720p,一個(gè)非常聰明的選擇,是在保證實(shí)時(shí)性和互動(dòng)時(shí)長的前提下,找到的最佳畫質(zhì)平衡點(diǎn)。

理解了這段歷史,我們?cè)賮砜础耙恢滦浴边@個(gè)致命難題,就會(huì)有更深的感觸。

在 Genie3 里面,開頭是一副黑板,上面有圖、有字,你走上前去,細(xì)細(xì)觀摩,然后走到一邊,看向窗外,過了一分鐘,再回來,黑板上的內(nèi)容,只字未改,依舊存在。

當(dāng)視頻在手機(jī)上無法加載,可前往PC查看。

這個(gè)一致性,這個(gè)記憶能力,太恐怖了。

還有這個(gè)視頻。

此即未來!Google重磅上線通用世界模型Genie 3

他們是可以保證,建筑物左側(cè)的樹木在整個(gè)互動(dòng)過程中保持一致,即使它們時(shí)而進(jìn)入視野,時(shí)而又離開視野。

太牛逼了。

之前應(yīng)該也就一個(gè)月左右,我體驗(yàn)過一個(gè)叫 Odyssey 的產(chǎn)品,也是世界模型。

坦誠的講,那是一次非常糟糕的體驗(yàn)。

此即未來!Google重磅上線通用世界模型Genie 3

我控制角色往前走了也就十幾秒,整個(gè)畫面就開始崩壞、扭曲。

最嚇人的是,每次當(dāng)我回頭看走過的路時(shí),身后的世界完全變了樣,而且是每回頭一次,它就變一次。

那種感覺,就像你走在一個(gè)不斷溶解、不斷重組的恐怖空間里,極度缺乏安全感。

我在一個(gè)世界模型里,走出了恐怖游輪的感覺。

而 Genie 3 最牛逼的地方,恰恰就是在這個(gè)要命的問題上取得了突破。

當(dāng)它的穩(wěn)定交互時(shí)長能從十幾秒躍升到數(shù)分鐘時(shí),就意味著我們終于可以從 Odyssey 那種回頭即崩的恐怖體驗(yàn),邁向一個(gè)至少在幾分鐘內(nèi)值得信賴和探索的穩(wěn)定世界。

所以,Genie 3 在我看來,就像一場(chǎng)我們能部分控制的清明夢(mèng)。

絢爛、多變、充滿驚喜,但目前還像個(gè)隨時(shí)可能醒來的夢(mèng)。

即便如此,它所展現(xiàn)出的可能性,已經(jīng)給了我前所未有的想象空間。

你甚至可以在這個(gè)夢(mèng)里,就跟創(chuàng)世神一樣,隨意的修改。

當(dāng)視頻在手機(jī)上無法加載,可前往PC查看。

這種創(chuàng)世引擎一旦成熟,它對(duì)現(xiàn)有部分行業(yè)的沖擊將是核彈級(jí)的。

我玩了這么多年 VR,其實(shí)一直以來,最大的痛點(diǎn)就是內(nèi)容匱乏。

我們體驗(yàn)到的依然是一個(gè)個(gè)稀少的、孤立的、精美的 3D 場(chǎng)景,而不是一個(gè)活生生的世界。

未來,你戴上 VR 頭顯,不再是打開一個(gè) App 列表,而是對(duì)你的 AI 助手說一句話:帶我去一個(gè)雨夜的賽博朋克城市,要能聽到遠(yuǎn)處警笛聲,街角要有一個(gè)賣拉面的小攤。

然后,一個(gè)獨(dú)一無二、可供你實(shí)時(shí)探索的世界,就為你而生了。

VR 將從一個(gè)內(nèi)容消費(fèi)的設(shè)備,變成一個(gè)世界生成的入口,解決了內(nèi)容的問題,才有元宇宙真正該有的樣子。

這也才是綠洲,真正的魅力。

對(duì)于游戲行業(yè)來說,也是。

現(xiàn)代 3A 的開發(fā)成本動(dòng)輒數(shù)億美金,其中絕大部分都花在了構(gòu)建龐大而精細(xì)的游戲世界上,這是一個(gè)勞動(dòng)密集型、資本密集型的產(chǎn)業(yè)。

比如說未來的《上古卷軸 6》或者《GTA7》,又或者《博德之門 4》,除了主線劇情,我們?cè)谟螒蜻^程中,跟一個(gè)有個(gè)人意識(shí)的 NPC 聊天,然后觸發(fā)了一個(gè)全新的支線任務(wù)。

“一個(gè)被巨龍摧毀的村莊的系列任務(wù),我要在廢墟里尋找幸存者,并找到巨龍的巢穴?!?/p>

當(dāng)然,我并不是想表達(dá),純粹隨機(jī)的故事或游戲能好玩到哪里去。講故事、做游戲,想讓大家覺得好看、好玩是非常難的一件事,規(guī)則的約束至關(guān)重要。

世界模型的可貴之處在于,它能在精妙的人類規(guī)則設(shè)計(jì)下,填充無窮無盡、合乎邏輯的動(dòng)態(tài)細(xì)節(jié)。

游戲的延展,被巨幅拓寬,制作人或者設(shè)計(jì)者,完全可以指定這個(gè) AI 世代的隨機(jī)規(guī)則,就像生成《無人深空》里面的星球一樣,用規(guī)則來約束世界模型的生成,在保證游戲性和故事性的基礎(chǔ)上,讓玩家的體驗(yàn),不再首先與人力和想象力,而是把這個(gè)世界的主導(dǎo)權(quán),交還一部分給玩家。

玩家不再只是玩家,更是關(guān)卡設(shè)計(jì)師、任務(wù)發(fā)布者、甚至是世界觀的共創(chuàng)者。

官方演示里,智能體在 Genie 3 生成的世界里完成任務(wù),我覺得這已經(jīng)揭示了未來的冰山一角。

此即未來!Google重磅上線通用世界模型Genie 3

除了 VR、游戲,還有電影。

電影誕生一百多年來,其實(shí)也一直是線性的、導(dǎo)演中心制的,觀眾只能被動(dòng)地跟隨鏡頭,看一個(gè)被安排好的故事。

直到去年一些互動(dòng)影游火了以后,講故事的方法,稍微開始會(huì)有一些變化了,但,互動(dòng)影游的情節(jié),本質(zhì)上也是一個(gè)被安排好的故事。

Genie 3,尤其是它的可提示世界事件,更像是一種全新敘事形式的誕生。

未來的電影,可能也更像一場(chǎng)由你主導(dǎo)的夢(mèng)境。

當(dāng)你看到主角面臨一個(gè)抉擇時(shí),你可以暫停,然后用語言導(dǎo)演接下來的劇情。

“讓天開始下雪,讓他們?cè)谘┲袚肀А!被蛘撸白尫磁傻碾娫捦蝗豁懫?,打斷他們的?duì)峙?!?/p>

你不再是觀眾,而是擁有部分神之權(quán)限的參與者。

這比《黑鏡:潘達(dá)斯奈基》那種選擇分支的互動(dòng)劇要走得遠(yuǎn)得多。

它不是在 A 和 B 之間做選擇,而是在一個(gè)擁有無限可能性的空間里,進(jìn)行自由創(chuàng)作。

電影和游戲的邊界,將在這里徹底消融。

我一想到那樣的未來,我就心潮澎湃。

當(dāng)然,我們也必須清醒地看到 Genie 3 當(dāng)下的局限性。

只能維持幾分鐘的互動(dòng)時(shí)長、無法精確模擬真實(shí)世界、文本渲染能力差……

以及,現(xiàn)在還沒有對(duì)公眾開放,真正產(chǎn)品上線的時(shí)候,效果不知道會(huì)不會(huì)打折。

它就像一百多年前盧米埃爾兄弟在咖啡館里放映的第一部電影《火車進(jìn)站》,粗糙、黑白、無聲,甚至可能讓當(dāng)時(shí)的人感到恐慌。

但這不重要。

重要的是,它證明了一件事:路,是通的。

過去,我們通過文字和口述來傳承神話。

后來,我們通過繪畫和電影來描繪神話。

而今天,我們即將獲得親手創(chuàng)造神話的能力。

那問題來了。

“你,究竟想要一個(gè)什么樣的世界呢?”

謝謝你看我的文章,我們,下次再見。

收藏 4
點(diǎn)贊 44

復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。