近日,谷歌DeepMind的研究人員推出了,首個(gè)無(wú)需數(shù)據(jù)標(biāo)記、無(wú)監(jiān)督訓(xùn)練的生成交互模型——Generative Interactive Environments,簡(jiǎn)稱“Genie”。
Genie是一個(gè)具有110億參數(shù)的模型,它能夠根據(jù)圖像、真實(shí)照片甚至草圖生成可控制動(dòng)作的視頻游戲。這個(gè)模型的特點(diǎn)是無(wú)需數(shù)據(jù)標(biāo)記和無(wú)監(jiān)督訓(xùn)練,它通過(guò)3萬(wàn)小時(shí)、6800萬(wàn)段游戲視頻進(jìn)行了大規(guī)模訓(xùn)練,而且訓(xùn)練過(guò)程中沒有使用任何真實(shí)動(dòng)作標(biāo)簽或其他特定提示。
Genie的核心架構(gòu)使用了ST-Transformer(時(shí)空變換器),這是一種結(jié)合了Transformer模型的自注意力機(jī)制與時(shí)空數(shù)據(jù)的特性,有效處理視頻、多傳感器時(shí)間序列、交通流量等時(shí)空數(shù)據(jù)的方法。ST-Transformer通過(guò)捕捉數(shù)據(jù)在時(shí)間和空間上的復(fù)雜依賴關(guān)系,提高了對(duì)時(shí)空序列的理解和預(yù)測(cè)能力。
Genie的架構(gòu)主要由三大模塊組成:
1. 視頻分詞器:基于VQ-VAE的模塊,將原始視頻幀壓縮成離散的記號(hào)表示,以降低維度并提高視頻生成質(zhì)量。
2. 潛在動(dòng)作模型:無(wú)監(jiān)督學(xué)習(xí)模塊,從原始視頻中推斷出狀態(tài)變化對(duì)應(yīng)的潛在動(dòng)作,并實(shí)現(xiàn)對(duì)每一幀的控制。
3. 動(dòng)力學(xué)模型:基于潛在動(dòng)作模型學(xué)習(xí)到的動(dòng)作關(guān)系,預(yù)測(cè)下一幀的視頻。
除了視頻游戲,你覺得 Genie 模型還能在哪些其他領(lǐng)域發(fā)揮作用?