大家好,我是和你們聊設(shè)計(jì)花生~
3D 建模是當(dāng)下設(shè)計(jì)熱門,大家熟知的 C4D、blender 等 3D 軟件都是通過先在三維空間中建模,然后設(shè)置參數(shù)進(jìn)行渲染的方式構(gòu)建 3D 場景。渲染內(nèi)容元素越復(fù)雜、尺寸越大、精度越高,所需的渲染時(shí)間也越長,而且對電腦硬件的要求也不低。
但是前不久,英偉達(dá)(NVIDIA)在其官網(wǎng)上發(fā)布了一篇文章,表明其研究團(tuán)隊(duì)已經(jīng)開發(fā)出一個(gè)可以實(shí)現(xiàn)快速渲染 3D 場景的模型 Instant NeRF。
「文章鏈接」 https://blogs.nvidia.com/blog/2022/03/25/instant-nerf-research-3d-ai
文章表示,Instant NeRF 模型可以在幾分鐘內(nèi)對數(shù)張靜態(tài)照片以構(gòu)建 3D 場景為基礎(chǔ)進(jìn)行訓(xùn)練學(xué)習(xí),然后在幾十毫秒內(nèi)渲染出該 3D 場景的圖像。
英偉達(dá)還在文章內(nèi)放上了一段視頻,以可視化的方式展示了 Instant NeRF 的運(yùn)作方式——以逆向渲染的方式,模擬光線在現(xiàn)實(shí)世界中的運(yùn)作 ,以實(shí)現(xiàn)用數(shù)張從不同角度拍攝的2D圖像來重構(gòu)一個(gè)逼真的3D場景。
如果我們看到一張圖片,大腦很容易就能通過空間想象判斷一個(gè)物體的空間體積、位置、顏色等信息。就如通過一個(gè)人物的三視圖,我們便能構(gòu)建出一個(gè)完整的立體人物形象。
圖片來源: 優(yōu)設(shè)文章《出海產(chǎn)品如何從零搭建 IP 插畫庫?讓大廠高手教你!》作者:騰訊設(shè)計(jì)
但是這對人工智能來說并非易事。就以往來說,即使我們給出多個(gè)角度的圖片,人工智能也無法像人腦那樣自動推算空白角度的細(xì)節(jié),因此也無法自動構(gòu)建出完整的 3D 場景。
這也是為什么現(xiàn)在的 3D 場景都是由建模開始的——先把所有的造型細(xì)節(jié)構(gòu)建好,才能實(shí)現(xiàn)后期多角度場景渲染。
來源:Artstation-Merve Kaplan
那 Instant NeRF 是如何實(shí)現(xiàn)僅依靠數(shù)張不同角度有圖片,在幾秒的時(shí)間內(nèi)渲染出完整逼真的 3D 場景的呢?
通過文章內(nèi)容,我們可以了解 Instant NeRF 技術(shù)的實(shí)現(xiàn),主要依靠 2 點(diǎn):
- NeRF,即神經(jīng)輻射場。 用過函數(shù)分析預(yù)測 2D 鏡頭中的顏色和光強(qiáng)度,并渲染完成的 3D 場景
- 多分辨率哈希網(wǎng)格編碼技術(shù),將 NeRF 模型的訓(xùn)練學(xué)習(xí)時(shí)間由數(shù)小時(shí)縮短為幾分鐘,渲染時(shí)間更是縮短至毫秒。
Instant NeRF 技術(shù)并非英偉達(dá)全新研發(fā),其中的 NeRF(神經(jīng)輻射場)技術(shù)早在 2020 年提出了。
NeRF 由加州大學(xué)伯克利分校、谷歌研究院和加州大學(xué)圣地亞哥分校的研究人員共同開發(fā)的,旨在使用神經(jīng)網(wǎng)絡(luò),將輸入的二維圖像集合,渲染輸出位逼真三維場景。
用 NeRF 技術(shù)將圖片轉(zhuǎn)為 3D 場景
具體步驟為:先將一個(gè)連續(xù)的場景,描述為一個(gè) 5D 矢量值函數(shù),包括一個(gè) 3D 位置(x;y;z)和 2D 觀察方向(θ;Φ)。將這個(gè)5D函數(shù)輸入模型后,輸出為一個(gè)發(fā)射的顏色C=(r;g;b)和體積密度(α)。
然后使用體積渲染技術(shù),將輸出的顏色與密度數(shù)據(jù)合成為 RGB 圖像。渲染函數(shù)是可微分的,所以可以通過最小化合成圖像和真實(shí)圖像之間的殘差,實(shí)現(xiàn)優(yōu)化場景表示,最終形成完整了 3D 場景。
通過 NeRF 技術(shù),可以實(shí)現(xiàn)利用多張不同角度 2D 照片構(gòu)建逼真完整的 3D 場景,與實(shí)景拍攝幾乎無異。
在此基礎(chǔ)上,無論是想固定視角查看不同光照角度效果:
具有復(fù)雜遮擋的場景:
還是將虛擬對象插入具有明顯遮擋效果的現(xiàn)實(shí)世界場景中,都是可以實(shí)現(xiàn)的。
NeRF 甚至能渲染出對真實(shí)對象進(jìn)行 360°視圖捕獲的效果,而且無需綠幕等背景隔離或掩蔽。
開發(fā)人員還在繼續(xù)深入對進(jìn)行 NeRF 開發(fā)擴(kuò)展,以實(shí)現(xiàn)在任意光照條件下從新的視角對場景進(jìn)行渲染。
NeRF 技術(shù)的出現(xiàn)無疑是激動人心的。根據(jù)可視化的復(fù)雜性和分辨率,用傳統(tǒng)方法創(chuàng)建一個(gè)三維場景需要幾個(gè)小時(shí)甚至更長時(shí)間。將人工智能帶入畫面會加快事情的進(jìn)展——省去前期建模的工作,極大地提高了3D捕捉的效率和便利性。
我們已經(jīng)知道,NeRF 是通過 5D 數(shù)據(jù)輸入-模型運(yùn)算學(xué)習(xí)- 輸出 RGBσ數(shù)據(jù)-體積渲染的步驟,來形成完整3D場景。
早期的 NeRF 模型在幾分鐘內(nèi)就能渲染出沒有偽影的清晰場景,但在模型訓(xùn)練學(xué)習(xí)這一步,由于要處理大量數(shù)據(jù),且可能需要進(jìn)行結(jié)構(gòu)修改,例如修剪、拆分或合并等步驟,模型訓(xùn)練過程非常耗費(fèi)資源和時(shí)間,需要十幾小時(shí)甚至一天。
然而,英偉達(dá)的卻通過一種名為多分辨率的哈希網(wǎng)格編碼技術(shù),卻將這一步所需的時(shí)間縮短了幾個(gè)量級——由原來的十幾小時(shí)縮短為幾分鐘。
多分辨率哈希編碼技術(shù),是由來自英偉達(dá)的 Thomas Müller、Alex Evans、Christoph Schied 和 Alexander Keller 組成的研究小組創(chuàng)造的一種新的輸入編碼方法。
“我們通過一種通用的新輸入編碼來降低成本,該編碼允許在不犧牲質(zhì)量的情況下使用更小的網(wǎng)絡(luò),從而顯著減少浮點(diǎn)和內(nèi)存訪問操作的數(shù)量:
一個(gè)小型神經(jīng)網(wǎng)絡(luò),由可訓(xùn)練的多分辨率哈希表增強(qiáng)通過隨機(jī)梯度下降優(yōu)化其值的特征向量。多分辨率結(jié)構(gòu)允許網(wǎng)絡(luò)消除哈希沖突的歧義,從而形成一個(gè)簡單的架構(gòu),在現(xiàn)代 GPU 上并行化是微不足道的。
——多分辨率哈希編碼技術(shù)研究小組
多分辨率哈希編碼技術(shù)原理涉及很多計(jì)算機(jī)專業(yè)術(shù)語和知識,但是如果你對哈希算法有所了解,知道哈希算法的特征之一:無論大的數(shù)據(jù),通過哈希算法都能將其轉(zhuǎn)換為固定長度的哈希值。我們就能對多分辨率哈希編碼技術(shù)的邏輯有一個(gè)大致的了解。
多分辨率哈希編碼技術(shù)的總體思路,就是通過減少所使用的參數(shù)編碼技術(shù)所需的參數(shù)數(shù)量,并使數(shù)據(jù)結(jié)構(gòu)本身更易于 GPU 處理,從而進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練明顯更快。
無論輸入 Instant NeRF 的數(shù)據(jù)大小如何,通過希哈編碼技術(shù)先將數(shù)據(jù)轉(zhuǎn)換為唯一對應(yīng)的索引值。在知道檢索數(shù)據(jù)的索引值的前提下,在執(zhí)行訓(xùn)練操作時(shí),不需要對數(shù)據(jù)結(jié)構(gòu)進(jìn)行結(jié)構(gòu)更新,模型處理速度就能提升很多。
不同編碼的重建質(zhì)量演示??梢钥闯鍪褂霉1砭幋a方式的(d)和(e)的訓(xùn)練時(shí)間分別為 1 分 40 秒和 1 分 45 秒,比其他編碼方式的訓(xùn)練速度提高了 8 倍以上。且在可訓(xùn)練參數(shù)總數(shù)相同的情況下,(e)比(d)質(zhì)量更高,但訓(xùn)練時(shí)間不會增加。
此外,哈希編碼技術(shù)會自動優(yōu)先考慮“具有最重要精細(xì)尺度細(xì)節(jié)的稀疏區(qū)域”。這樣就不用將時(shí)間和計(jì)算資源花費(fèi)在空白空間或細(xì)節(jié)較少的空間上。
例如,圖像中具有較粗糙細(xì)節(jié)的區(qū)域不會在不必要的精細(xì)分辨率上重復(fù)查詢,從而提高訓(xùn)練和渲染的效率和速度。
多分辨率哈希編碼技術(shù)讓 Instant NeRF 模型只需要幾秒鐘就能對幾十張靜止的照片進(jìn)行訓(xùn)練,再加上它們的拍攝角度的數(shù)據(jù),然后可以在幾十毫秒內(nèi)渲染出結(jié)果的 3D 場景。相比 NeRF 之前數(shù)小時(shí)的訓(xùn)練學(xué)習(xí)時(shí)間,Instant NeRF 的進(jìn)步無疑是驚人的。
新的多分辨率哈希編碼算法將時(shí)間縮短到 5 秒,不僅可以訓(xùn)練場景,還可以提供實(shí)時(shí)渲染
英偉達(dá)研究團(tuán)隊(duì)將自己研發(fā)的多分辨率哈希編碼技術(shù)和 NeRF 模型結(jié)合,使 Instant NeRF 成為首批將超快的神經(jīng)網(wǎng)絡(luò)訓(xùn)練和快速渲染相結(jié)合的模型之一。
它能幾分鐘內(nèi)處理圖像并在“幾十毫秒”內(nèi)生成完整的 3D 場景,極大地提高了 3D 捕捉和分享的速度、便利性和范圍。
且多分辨率哈希編碼技術(shù)經(jīng)過優(yōu)化后,Instant NeRF 可以在單個(gè)英偉達(dá) GPU 上進(jìn)行訓(xùn)練并高速運(yùn)行,而且渲染結(jié)果質(zhì)量極高。
英偉達(dá)的研究人員表示,Instant NeRF 有多種應(yīng)用:
- 幫助自動駕駛系統(tǒng)了解現(xiàn)實(shí)世界物體的大小體積,用來訓(xùn)練自動駕駛汽車;
- 用于為虛擬世界創(chuàng)建化身,為“元宇宙”的構(gòu)建提供技術(shù)支撐;
- 還可用于建筑和娛樂業(yè),以快速生成真實(shí)環(huán)境的數(shù)字表現(xiàn),創(chuàng)作者可在此基礎(chǔ)上進(jìn)行修改和構(gòu)建
以上這些都只是 Instant NeRF 目前應(yīng)用的一小部分。
Instant NeRF 的 3D 場景構(gòu)建邏輯完全不同于現(xiàn)在傳統(tǒng)的 3D 軟件,在應(yīng)用方面有很大的不同。隨著元宇宙和人工智能的深入發(fā)展,相信 Instant NeRF 的應(yīng)用價(jià)值會不斷替提升,技術(shù)的迭代升級也會不斷深入拓展。
「參考資料」
https://blogs.nvidia.com/blog/2022/03/25/instant-nerf-research-3d-ai/
https://www.matthewtancik.com/nerf
https://finance.sina.com.cn/wm/2020-04-10/doc-iirczymi5502874.shtml
https://nvlabs.github.io/instant-ngp/
https://www.dpreview.com/news/3150421614
更多設(shè)計(jì)資訊
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。
熱評 琥珀