從 Sora 的發(fā)展史,聊聊設(shè)計師如何面對 AI 焦慮

經(jīng)過春節(jié)小休整,很多朋友都鼓起信心重新出發(fā),因為吉祥話聽多了還是會受用,沒想到返崗?fù)局羞€沒來得及跟大家道句開工大吉,資訊話題就被Sora的發(fā)布信息填滿。

關(guān)于這款神器的詳細介紹:

Sora的發(fā)布讓人感嘆科幻電影都不敢這樣拍,而且很多權(quán)威平臺都認為奧特曼的大招還沒亮出來,幾句話做60秒視頻只是前戲,先吊吊大家胃口,為他后面融資鋪墊。

從 Sora 的發(fā)展史,聊聊設(shè)計師如何面對 AI 焦慮

此圖最近已經(jīng)符號化了

Sora這個名字據(jù)說來自日文中的“空”(そら sora),象征“無限創(chuàng)造力”,眾所周知,空也是佛家用語,以我的無知只能找來《道德經(jīng)》的“無”來應(yīng)戰(zhàn),無中生有,有生于無,意味深長。

關(guān)于最新科技無論在公在私大家都應(yīng)該了解,不然酒局時候無法插嘴,于是我在網(wǎng)上找來一些資訊,普遍說得學術(shù)晦澀,都不太滿意,所以按照慣例,決定自己寫一篇。

此文希望通俗一點跟大家談一下Sora,包括它的誕生過程,背后團隊,技術(shù)原理,五大絕招,三大局限,及面對AI沖擊時候,設(shè)計行業(yè)的一點思考。

一、Sora如何誕生?

在AI繪畫發(fā)展得如火如荼的時候,探索AI生成視頻是不少公司都在攻克的課題,比如Meta公司的Make-A-Video,Runway的 Gen-2 和Google的 Lumiere等等。

這些公司及其相關(guān)模型已經(jīng)在2023年取得階段性成果,其中“跑路公司”(Runway)托名字的福,果然相對領(lǐng)跑,它生成的AI視頻具有畫面清晰,精美度強,能影視運鏡等特征,而且最新版本已經(jīng)能生成4k畫質(zhì),但時長只有4-16秒。

從 Sora 的發(fā)展史,聊聊設(shè)計師如何面對 AI 焦慮

Runway的Gen-2?

你大爺還是你大爺,Openai作為人工智能領(lǐng)域的頭牌阿姑,不鳴則已一鳴驚人,在2024年2月16日發(fā)布的Sora除了視頻生成時長達到60秒之外,還在語義理解,畫面表現(xiàn),細節(jié)完善度等方面秒殺全部同學。

而且Sora居然能理解物體在物理世界的存在,并且可以應(yīng)對復(fù)雜場景的變化等等。

從 Sora 的發(fā)展史,聊聊設(shè)計師如何面對 AI 焦慮

關(guān)于Sora的牛已經(jīng)不需要我在本文章里夸,但我想指出一點,就是官方視頻就像賣家詳情,到了買家手上還是會有變化,就如同你買的車永遠開不出廠家標注的油耗一樣。

當然更多發(fā)布細節(jié)其實我并不了解,但根據(jù)過去認識,類似發(fā)布一般不會現(xiàn)場給你演示,所以就對了。

而關(guān)于Sora的誕生歷程與細節(jié)自然不為外界所知,只有項目負責人及Openai才有發(fā)言權(quán),所以這里只能扒一下幾位核心成員背景,及談?wù)凷ora的技術(shù)基本原理。

Sora整個團隊僅僅合計13人,而核心成員只有三位,而且都非常年輕。

分別是負責研發(fā)的蒂姆·布魯克斯(Tim Brooks)、比爾·皮布爾斯(Bill Peebles)、及負責系統(tǒng)的康納·福爾摩斯(Connor Holmes)。

布魯克斯是2023年在加州大學伯克利分校的博士,一看“出廠年份”真的年紀不大。

從 Sora 的發(fā)展史,聊聊設(shè)計師如何面對 AI 焦慮

蒂姆·布魯克斯

去加州大學之前,布魯克斯其實先在谷歌的智能手機“Pixel”部門工作了兩年,主要研究AI相機,而他的本科就讀于卡內(nèi)基梅隆大學,主修邏輯與計算,輔修計算機科學,實習期間則在 Facebook的軟件工程部門,為期四個月。

在谷歌工作的布魯克斯也許對自己期許更大,就選擇了到加州大學的“伯克利人工智能研究所”攻讀博士,主要研究方向就是圖片與視頻生成。

第二位核心人物皮布爾斯跟布魯克斯是同學,兩人都師從一位導(dǎo)師,同樣在2023年博士畢業(yè),而皮布爾斯的本科就讀于麻省,也是主修計算機科學。

從 Sora 的發(fā)展史,聊聊設(shè)計師如何面對 AI 焦慮

比爾·皮布爾斯

皮布爾斯曾經(jīng)在英偉達(美國電腦處理器知名公司)的深度自動駕駛團隊實習,研究計算機視覺。

而最后一位核心人物,Sora系統(tǒng)的負責人福爾摩斯則畢業(yè)于科羅拉多礦業(yè)大學,本科主修電氣電子工程、博士階段主攻高性能計算,他曾在微軟工作,因為跟Openai有項目合作被外派,于是順理成章的被挖走。

從 Sora 的發(fā)展史,聊聊設(shè)計師如何面對 AI 焦慮

康納·福爾摩斯

以上三人的履歷起碼讓大家清楚,開發(fā)Sora是一群擁有什么技能的人才,據(jù)說面對AI的高速迭代發(fā)展,團隊13人在一年時間里都持續(xù)加班,睡眠時間極少,可見年輕就是好。

從 Sora 的發(fā)展史,聊聊設(shè)計師如何面對 AI 焦慮

Openai的辦公室

二、Sora的技術(shù)原理

Sora的技術(shù)原理如果細說大部分人都不知所云,因為太多專業(yè)名詞,要搞懂A先得弄懂B,弄懂B則需要了解C,大家現(xiàn)在連咒語都還編不好,所以不能太勉強,這里以最有效通俗的類比法講述一下:

AI人工智能技術(shù)首先必須有一個輸入端,可以理解為吃東西,各種AI模型就像中國山海經(jīng)里的饕餮,怎么都吃不飽,當然吃東西也要成本,這是第一個重點。

Sora在輸入時候主要吃視頻跟圖片,它吃的方式比較特別,也是核心技術(shù),就是能將一個雞腿從三維拍扁為二維,sora稱為“視頻壓縮網(wǎng)絡(luò)”,就是降維處理,所以不管什么東西被它拍扁之后就格式統(tǒng)一了,而且便于儲存。

從 Sora 的發(fā)展史,聊聊設(shè)計師如何面對 AI 焦慮

吃完就要消化分解了,這是Sora另一個核心技術(shù),叫“空間時間補丁”(Spacetime Patches),就等于將吃進去的雞腿分成雞皮,雞肉,跟雞骨頭等等,所以不管這是一個母雞,火雞還是小雞的腿,分解之后格式又一致了,分別是皮、肉、骨。

當然它不止吃雞腿,什么牛肉、胡蘿卜、饅頭等世間萬物都吃,比如大山,大河,建筑物,如同視頻中有動物主題也有風景主題等,然后都以同樣技術(shù)拍扁消化,再歸類儲存。

好了,現(xiàn)在有人通過關(guān)鍵詞伸手跟它要一個主題為“一個像胡蘿卜的雞腿在大海里裸泳”的視頻,它就從自己的素材庫里拼拼湊湊,生成這樣一個視頻出來。

從 Sora 的發(fā)展史,聊聊設(shè)計師如何面對 AI 焦慮

所以拆解下來如果不講技術(shù)細節(jié),其實邏輯跟AI繪畫差不多,過去我也寫過一篇《最易讀懂的AI繪畫發(fā)展史》,大家也可以去挖墳回顧。

因此Sora除了有自己的獨門技術(shù)之外,就是每個部分都做得比對手好,整體效果出來自然就好了。

過去我經(jīng)常跟朋友說好車的區(qū)別就是每個部分做得好一些,比如空調(diào)好一點,輪胎好一點,皮革好一點,豪華感就來了,都是四個輪子扛著沙發(fā),但10萬就變100萬。

三、Sora的五大絕招

至于橫空出世就名震江湖的Sora有什么絕招呢,大致有以下5點:

1. 準確及多樣:

Sora可以準確解釋用戶的文本輸入,并生高品質(zhì)視頻,不管人物動物或者風景建筑,并且據(jù)說Sora能夠準確解釋長達135個單詞這么長的提示。

2. 語言理解能力強:

Sora能利用Dall·E模型的“重述要點”技術(shù),生成視覺訓(xùn)練數(shù)據(jù)的描述性字幕,除了能提高文本準確性,還能提升視頻整體質(zhì)量,意思是它已經(jīng)懂你要干啥,但你說得太爛,它幫你再說一次。

從 Sora 的發(fā)展史,聊聊設(shè)計師如何面對 AI 焦慮

3. 強大擴展功能:

Sora可以接受多樣化的語言提示,用戶還可以根據(jù)圖像創(chuàng)建視頻或者補充現(xiàn)有視頻,并且還能沿時間線向前后擴展視頻,我們腦補一下AI繪畫中的補圖功能就好理解了,比如一段視頻里有只貓從樓下跳下來就沒了,我們可以輸入“貓?zhí)聛砗笞兩韸W特曼”之類,貓就不能退出劇組,變身奧特曼繼續(xù)出演。

4. 卓越的設(shè)備適配:

Sora具備出色的采樣能力,從寬屏 1920*1080p 到 豎 屏 1080*1920的任何視頻尺寸都能輕松搞定。

5. 場景和物體的一致和連續(xù):

Sora可以生成帶有動態(tài)視角變化的視頻,人物和場景元素在三維空間中的移動變化顯得更加自然,而且還能很好的處理遮擋問題,比如那只貓往下掉又還沒變身奧特曼之前被招牌擋住了一下,再出現(xiàn)時候還是那只貓。

四、Sora的三大局限

給人介紹對象都不能只談優(yōu)點,所以Sora的局限性我們也要客觀提出來,主要有三點:

1. 物理交互的模擬不夠準確:

Sora模型在模擬一些物理變化的時候不夠準確,比如玻璃破碎,這可能因為模型在訓(xùn)練數(shù)據(jù)中(“吃東西”)時候缺乏足夠的類似食物,或者sora還無法充分理解這些變化過程的底層原理。

2. 對象狀態(tài)變化不正確:

Sora在模擬如吃食物這一類場景的時候,存在無法始終正確反映變化的情況,比如一根香蕉吃到最后居然比吃第一口時候還長之類。

3. 長時視頻樣本還不夠連貫:

Sora在生成長時間的視頻時,可能會產(chǎn)生出不連貫的情節(jié)或者細節(jié),而且視頻中可能會出現(xiàn)對象無緣無故彈出來,表明Sora在空間和時間連續(xù)性的理解上還有待提高。

從 Sora 的發(fā)展史,聊聊設(shè)計師如何面對 AI 焦慮

這個Demo的狗就忽隱忽現(xiàn)

當然,我們前面談過,奧特曼可能留了一手,等Sora正式推出的時候,這些問題也許就不存在了,又或者早有完善版本,就是等你們先討論一下。

五、面對AI,我們該怎么辦?

Sora發(fā)布的那天我剛好回到深圳公司,當時在互聯(lián)網(wǎng)各種氣氛的烘托下,我還真的抑郁了一下,想著AI繪畫還沒完全學好,又來了個Sora。

但晚點就想通,想通原因是目前公司其實還有插畫師,工作中并沒有真的如同之前恐慌那樣砍掉了插畫師角色。

所以針對大家的“AI焦慮癥”,我有三個觀點:

其一觀點關(guān)于“競合關(guān)系”,歷史上任何一次技術(shù)大變革,都會讓新型技術(shù)跟現(xiàn)有技術(shù)產(chǎn)生競合關(guān)系,就是競爭與合作,從而產(chǎn)生出新的工作崗位。

以AI繪畫為例子,自從AI繪畫誕生起碼有三種新型工作隨之誕生,比如AI培訓(xùn)。

然后是一些過去根本不會繪畫的人通過AI技術(shù)可以完成一些簡單繪畫而提供服務(wù),比如今天刷到一位號稱外賣員轉(zhuǎn)行過來的制圖員,一張圖幾十元,第一次訂單就承接了4000張,開始專門從事這個行業(yè),然后走上致富之路,當然我想不通是什么樣的客戶.

但確實有些朋友可以為一些低端需求提供AI繪圖服務(wù),比如生成頭像或者產(chǎn)品圖之類,我們當前一個客戶的模特圖就找了AI公司進行生成。

還有一種就是用AI做自媒體,比如調(diào)戲AI,通過一些搞怪想法讓AI生成一些極具娛樂性的畫面賺取流量,這個時代流量就是貨幣,所以可以變現(xiàn)盈利。

從 Sora 的發(fā)展史,聊聊設(shè)計師如何面對 AI 焦慮

調(diào)戲AI

因此以上三者都確實是因為AI繪畫的誕生而產(chǎn)生的新工作,歡迎大家補充舉例。

第二個觀點關(guān)于“傻瓜與專業(yè)”,就是如果AI技術(shù)的使用足夠傻瓜,那么最后會成為類似美圖秀秀或者剪映這樣的大眾工具,最后只是看誰用得好,所以威脅是會化解的。

而假設(shè)AI技術(shù)足夠?qū)I(yè)又會形成門檻,比如AI繪畫也有專業(yè)流,比如能進一步修改,通過平面生成三維,線稿進行上色,讓一個形象連續(xù)生成等,一般人其實學不到這個層面,所以又會成為一個專業(yè)領(lǐng)域,好比寫散文大家都在高中學過,不表示每個人都能成為散文高手,所以威脅又消解了。

第三個觀點關(guān)于“完美與自然”,就目前來看,無論AI繪畫或者生成視頻,其痕跡感是很強的,這種痕跡就是一種風格局限,但市場需求永遠是多元的。

前些天周鴻祎在視頻里談他家音響,說到音樂中最打動他的其實是一些來自人的細節(jié),比如樂手演奏時候的用力深淺,情緒變化,甚至是一些喘息的聲音等,而這些自然細節(jié)就目前來看(以后不知道)正是AI的弱項。

比如之前不少主播其實是使用了數(shù)字人進行視頻制作,但不久后很多人又切換為真人錄制,因為現(xiàn)實生活著沒人受得了身邊人都跟央視主播一樣說話,不完美有時候才足夠自然真實,而自然真實才更能打動人。

所以不管如何,大家面對的事實都會一樣,不會因為你的過分緊張而改變世界運用的方式與進度,我們應(yīng)該擁抱變化,但無需過度焦慮,作繭自縛。

歡迎關(guān)注作者的微信公眾號「設(shè)計史太濃」:

從 Sora 的發(fā)展史,聊聊設(shè)計師如何面對 AI 焦慮

收藏 22
點贊 40

復(fù)制本文鏈接 文章為作者獨立觀點不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。