阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

最近的 AI 新聞?dòng)悬c(diǎn)太密集了,肝快廢了。

25號(hào)凌晨 2 點(diǎn)半,Claude 發(fā) 3.7 Sonnet,凌晨 5 點(diǎn)半,阿里發(fā)了推理模型 QwQ-Max 的預(yù)覽版,早上 10 點(diǎn) DeepSeek 開(kāi)源了一個(gè) DeepEP 代碼庫(kù),然后晚上 10 點(diǎn) 20,阿里的視頻模型萬(wàn)相 2.1,也來(lái)了。

而且,正式開(kāi)源。

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

2 月 25 號(hào)是什么黃道吉日嗎。。。

萬(wàn)相 2.1 開(kāi)源鏈接在此:

  1. Huggingface 的: https://huggingface.co/Wan-AI
  2. GitHub 的: https://github.com/Wan-Video/Wan2.1

阿里,真的也是“源神”。

這次上線的有四個(gè)模型,文生和圖生各倆。

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

文生視頻模型有 1.3B 和 14B 兩個(gè)規(guī)格。圖生視頻模型都是 14B,分辨率一個(gè) 480P 一個(gè) 720P。

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

這回比較讓人驚喜的是,低配置的模型真的小,1.3B 的模型,只需要 8 個(gè) G 的顯存就能跑了,也就是說(shuō),本地的 4060 都能跑得動(dòng)了。

如果你有 4090,跑一條 5 秒鐘的 480P 視頻的時(shí)間大概只要 4 分鐘。

說(shuō)實(shí)話,在年前的時(shí)候,萬(wàn)相 2.1 就已經(jīng)上線通義萬(wàn)相了。

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

只不過(guò)叫 2.1 專業(yè)和 2.1 極速版。

這塊在我測(cè)試下來(lái),專業(yè)版和極速版其實(shí)都是 14B 的,只不過(guò)專業(yè)版感覺(jué)是原生 720P,極速版是直出的 480P 然后超分到 720P 的。

而 1.3B 是這次為了本地部署特意出的,所以線上目前還沒(méi)有體驗(yàn)渠道,想用的話,只能自己部署。

我也第一時(shí)間跑了一些 case,14B 因?yàn)樘罅?,我直接用線上的通義萬(wàn)相來(lái)跑的。1.3B 我是直接在魔搭上部署了跑的,還是比較簡(jiǎn)單的。

網(wǎng)址:https://www.modelscope.cn/models/Wan-AI/Wan2.1-T2V-1.3B

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

整體效果上,語(yǔ)義理解、物理真實(shí)性、復(fù)雜運(yùn)動(dòng)的表現(xiàn),萬(wàn)相 2.1 14B 在開(kāi)源視頻模型里絕對(duì)是第一梯隊(duì),而 1.3B 別看小,但是使用門(mén)檻也低啊,在實(shí)力上也真的完全不含糊。

直接先上一點(diǎn)我們跑的 case。

首先是長(zhǎng)文本和 Prompt 的語(yǔ)義理解表現(xiàn)不錯(cuò)。一連串動(dòng)作,都能按 prompt 順序挨個(gè)兒給你實(shí)現(xiàn)。

Prompt:空鏡從臥室頂部 45 度俯拍,一位女子躺在凌亂的床上。清晨陽(yáng)光透過(guò)百葉窗在她臉上投下條紋狀光影。她閉著眼,用手揉眼睛。然后睜開(kāi)眼睛, 微笑。

14B 效果:

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

1.3B 效果:

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

物理規(guī)律和質(zhì)感表現(xiàn)也挺不錯(cuò),這個(gè)切檸檬的影子變化、刀面紋理,還有切下去的質(zhì)感,真實(shí)感拉滿。

Prompt:高速攝影拍攝一個(gè)新鮮檸檬被切開(kāi)的瞬間。鏡頭推進(jìn),從中景到特寫(xiě)。鋒利的銀色水果刀從上方切下,檸檬汁飛濺而出,形成細(xì)小水珠。特寫(xiě)畫(huà)面呈現(xiàn)檸檬的橫切面和果肉紋理。

14B 效果:

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

1.3B 效果:

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

然后就是萬(wàn)相 2.1 剛上線通義的時(shí)候,不少人吹的運(yùn)動(dòng)表現(xiàn)。

我測(cè)下來(lái),雖然還說(shuō)不上是版本 T0,但優(yōu)點(diǎn)確實(shí)也挺明顯。大幅度的動(dòng)作、旋轉(zhuǎn)還有動(dòng)作的速度,都很猛。

Prompt:在冰面上,一位 18 歲的中國(guó)美少女明星短道速滑運(yùn)動(dòng)員熠熠生輝。她五官玲瓏,神色自信,肌膚勝雪,高馬尾充滿活力。她身著一條薄荷綠的超短薄紗裙,裙擺隨風(fēng)飄動(dòng),上身搭配白色露臍運(yùn)動(dòng)背心。以全景鏡頭俯拍,通過(guò)軌道車(chē)拍攝跟行。柔和的淡藍(lán)色燈光從斜前方灑下,光質(zhì)輕柔,光比偏小,營(yíng)造出清新的氛圍。她身姿矯健地疾馳,臨近終點(diǎn)時(shí)采用推鏡頭特寫(xiě)其堅(jiān)毅的眼神和快速擺動(dòng)的手臂。

14B:

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

1.3B:

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

2.1 還可以直接實(shí)現(xiàn)運(yùn)鏡效果,連復(fù)雜的遮擋物運(yùn)鏡都行。

Prompt:低機(jī)位拍攝圖書(shū)館書(shū)架,前景書(shū)本縫隙間閃過(guò)金絲眼鏡的反光。當(dāng)鏡頭水平移過(guò)三格書(shū)架,穿灰色毛衣的男生恰好轉(zhuǎn)頭,看向鏡頭,手中懸停的棕色書(shū)本封皮。

14B:

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

1.3B:

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

還有必須提一下的文字生成,萬(wàn)相是全世界第一個(gè)能直出中文字的,現(xiàn)在能在 AI 視頻里,直接生成中文的 AI 視頻模型太少了。

Prompt:以紅色新年宣紙為背景,出現(xiàn)一滴水墨,暈染墨汁緩緩暈染開(kāi)來(lái)。文字的筆畫(huà)邊緣模糊且自然,隨著暈染的進(jìn)行,水墨在紙上呈現(xiàn)「福」字,墨色從深到淺過(guò)渡,呈現(xiàn)出獨(dú)特的東方韻味。背景高級(jí)簡(jiǎn)潔,雜志攝影感。

14B 效果:

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

1.3B 效果:

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

不過(guò)文字生成還是有待改進(jìn),親測(cè)目前只能支持生成非常簡(jiǎn)單的、筆畫(huà)數(shù)少的中文,可以實(shí)現(xiàn)的字體也比較少,復(fù)雜點(diǎn)的文字內(nèi)容還是容易出現(xiàn)亂碼和鬼畫(huà)符。不過(guò)沒(méi)關(guān)系,這只是剛開(kāi)始,萬(wàn)相繼續(xù)加油吧,這個(gè)方向是非常實(shí)用的。

整體來(lái)說(shuō),萬(wàn)相 2.1 語(yǔ)義理解和物理表現(xiàn)都很穩(wěn),畫(huà)面審美也在基準(zhǔn)之上。

而且不要忘了,這玩意可是開(kāi)源的。。。

對(duì)與生態(tài)的加持,想象空間太大了。

如果你現(xiàn)在想用萬(wàn)相 2.1 的話,有幾種使用方式。

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

先說(shuō) 14B 的,14B 的你可以跟我一樣,直接去官網(wǎng)免費(fèi)用,每天簽到有 50 靈感值,如果你在 APP 上跑一個(gè)視頻的話每天可以再加 50 靈感值。

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

1 個(gè)專業(yè)版(14B 720P)的視頻,5 靈感值,也就是說(shuō),你其實(shí)一天可以白嫖 20 個(gè)視頻了。

然后就是 Hugging Face 上的 demo,雖然是可以所謂的無(wú)限免費(fèi)用,但是算力太少人太多,基本約等于用不了,可以直接放棄。

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

還有就是去阿里云百煉,接 API 用:
https://bailian.console.aliyun.com/model-market#/home

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

價(jià)格的話,Plus(2.1 專業(yè)版)是每秒 0.7 元,Trubo(2.1 極速版)是每秒 0.24 元。

然后就是 1.3B,如果你本身有 8G 以上的顯卡,那就無(wú)腦直接本地化自己部署就行了。

具體的可以去他們 github 上看。

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

其實(shí)我最期待的,還是關(guān)于 ComfyUI 的集成,如果這能接進(jìn)去,那就可以玩很多的花活了。

最后,我還是想表達(dá)一下對(duì)阿里的敬佩。

AI 領(lǐng)域的半壁江山,現(xiàn)在幾乎都是阿里的。

Qwen 作為老大哥遙遙領(lǐng)先,新秀萬(wàn)相補(bǔ)上 AI 視頻的空白,現(xiàn)在全世界,都知道了阿里的名號(hào)。

而且不止是 AI 圈,金融圈,更是因?yàn)榘⒗镌?AI 上的策略,全世界的資本開(kāi)始重新關(guān)注過(guò)來(lái)。

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

你就看看阿里漲了多少吧,帶著恒生科技和中概互聯(lián)又飛了多少吧。

中國(guó)資產(chǎn)的全面復(fù)蘇。

正是因?yàn)榍皫滋彀⒗镎训呢?cái)報(bào),還有 AGI 的決心,讓全球的投資者都認(rèn)識(shí)到,中國(guó)的宏觀、行業(yè)、企業(yè)在節(jié)點(diǎn)上,都已經(jīng)完成了對(duì)齊。

順帶也告訴全世界:

我們不只在跟跑,我們也開(kāi)始在領(lǐng)跑了。

未來(lái)肯定還會(huì)有更多挑戰(zhàn),但如今,我有理由對(duì)阿里,對(duì) DeepSeek,對(duì)整個(gè)中國(guó)的 AI 產(chǎn)業(yè)抱以更大的信心。

最后,用一句話收尾吧:

源神之名。

當(dāng)之無(wú)愧。

歡迎關(guān)注作者的微信公眾號(hào):數(shù)字生命卡茲克

阿里深夜開(kāi)源萬(wàn)相2.1,這是AI視頻領(lǐng)域的DeepSeek!

收藏 25
點(diǎn)贊 34

復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。