本篇通過產(chǎn)品介紹和豐富的案例實(shí)踐,帶你了解 AI 視頻有哪些產(chǎn)品,效果如何實(shí)現(xiàn)。
產(chǎn)品概況
若從生成方式分類,AI 視頻生成包含:
- 文生視頻、圖生視頻(Runway、Pika labs、SD + Deforum、SD + Infinite zoom、SD + AnimateDiff、Warpfusion、Stability Animation)
- 視頻生視頻:又分逐幀生成(SD + Mov2Mov)、關(guān)鍵幀+補(bǔ)幀(SD + Ebsynth、Rerender A Video)、動(dòng)態(tài)捕捉(Deep motion、Move AI、Wonder Dynamics)、視頻修復(fù)(Topaz Video AI)
- AI Avatar+語音生成:Synthesia、HeyGen AI、D-ID
- 長視頻生短視頻:Opus Clip
- 腳本生成+視頻匹配:Invideo AI
- 劇情生成:Showrunner AI
若從產(chǎn)品階段和可用維度分類:
下面將按照上圖維度進(jìn)行產(chǎn)品介紹。
本節(jié)產(chǎn)品適合專業(yè)創(chuàng)作者進(jìn)行電影、MV、宣傳片等藝術(shù)作品中,有操作簡單的 Pika labs、Runway,也有基于 Stable Diffusion 能力延伸的插件。這些產(chǎn)品能夠被學(xué)習(xí)并掌握,因此本節(jié)內(nèi)容除了產(chǎn)品介紹,還會(huì)有實(shí)踐教學(xué)的部分。
1. Runway
該產(chǎn)品年初在互聯(lián)網(wǎng)爆火,泥塑人物的風(fēng)格化視頻想必大家都不陌生:
Runway 由一家總部位于舊金山的 AI 創(chuàng)業(yè)公司制作,其在 2023 年初推出的 Gen-2 代表了當(dāng)前 AI 視頻領(lǐng)域最前沿的模型。能夠通過文字、圖片等方式生成 4s 左右的視頻。Runway 致力于專業(yè)視頻剪輯領(lǐng)域的 AI 體驗(yàn),同時(shí)也在擴(kuò)展圖片 AI 領(lǐng)域的能力。目前 Runway 支持在網(wǎng)頁、iOS 訪問,網(wǎng)頁端目前支持 125 積分的免費(fèi)試用額度(可生成約 105s 視頻),iOS 則有 200 多,兩端額度貌似并不同步,想要更多試用次數(shù)的朋友可以下載 iOS 版本。
詳細(xì)介紹:
①Gen-1 和 Gen-2 的區(qū)別和使用方法
Gen-1
Gen-1 的主要能力有:視頻生視頻(Video 2 Video)、視頻風(fēng)格化、故事版(將實(shí)體模型風(fēng)格化)、遮罩等其中,僅支持視頻生視頻是 Gen-1 和 Gen-2 的最大差異。
Gen-1 使用流程:
Gen-1 能力介紹:
Gen-1 參數(shù)設(shè)置: https://help.runwayml.com/hc/en-us/articles/15161225169171
也可以看這個(gè)視頻學(xué)習(xí) Gen-1 的詳細(xì)設(shè)置方式: https://youtu.be/I4OeYcYf0Sc
Gen-2
Gen-2 的主要能力有:文生視頻(Text 2 Video )、Prompt+圖像生成視頻(Text + Image to Video )也支持無 Prompt 直接圖片轉(zhuǎn)視頻(Image to Video),通常圖生視頻時(shí),更推薦使用 Image to Video。想要使用 Gen-2,點(diǎn)擊頂部的 Start with Image、Start with Text 即可。
Text to Video 時(shí),建議優(yōu)先使用右下角的“Free Preview”免費(fèi)生成多組圖片,然后從中選擇一張進(jìn)行視頻生成,這樣可以節(jié)約 credits。
Runway 最近的更新中,支持將 4s 的視頻延長,每次延長需要消耗 20credits,從 Runway 的付費(fèi)情況來看,有點(diǎn)用不起。
②Motion 控制
9 月的更新中,runway 支持了 1-10 級(jí)的 motion slider 調(diào)節(jié),默認(rèn)幅度為 5
③運(yùn)鏡能力
同時(shí)支持了水平、垂直、空間和旋轉(zhuǎn),并且支持調(diào)節(jié)運(yùn)動(dòng)速度
④30 多項(xiàng)圖片、視頻處理能力
除了最基礎(chǔ)的圖像、視頻生成能力,Runway 還提供 30 多項(xiàng)圖片、視頻處理能力,包含:Inpainting 視頻修復(fù);Motion Tracking 視頻主體跟隨運(yùn)動(dòng);Remove Any Background 刪除視頻元素/背景;3D Texture 生成 3D 紋理等。
推薦這個(gè)教程,基本功能都有介紹一遍:https://www.youtube.com/watch?v=Yj73NRmeSZM
Watch
近期 Runway 控制臺(tái)上線了 Watch 模塊,可以查看官方精選的創(chuàng)意案例。
Pika labs
該產(chǎn)品目前推出了 Beta 版本,支持免費(fèi)、不限次數(shù)地文生視頻、圖生視頻,和 Runway 一樣, 生成的視頻會(huì)帶上官方水印。Pika labs 很少披露其產(chǎn)品、技術(shù)的詳細(xì)情況,官網(wǎng)也沒有花精力好好做,在國內(nèi)外的影響力都沒有 Runway 大,但其生成效果足以站上 AI 視頻的牌桌。
優(yōu)秀案例:
近期 x 上一個(gè)創(chuàng)作者發(fā)布的慶祝星球大戰(zhàn) 100 周年的短片做的非常成功:
這位導(dǎo)演用 Pika labs 產(chǎn)出的視頻都非常高質(zhì)量:By:Matan Cohen-Grumi
使用方法
- 目前在 Discord 試用 Beta 版本: http://discord.gg/pika
- 選擇 generate-x 開頭的頻道或者建立 pika labs 私信
- "/create" 輸入 prompt 即可完成文生視頻
輸入 prompt 后,點(diǎn)擊“增加 1”可添加 image 進(jìn)行文+圖生視頻
如果你想僅輸入圖片,不輸入 Prompt 來生成視頻,可以使用/animate 命令
此外,??可以幫助用戶快速進(jìn)行多次生成,??則可以方便的可控參數(shù)能基本滿足需求。
文本、圖像加密
9 月,pika 更新了新能力加密信息。使用命令/encrypt_text,可以將最多 20 個(gè)字符的文本“加密”到給定的視頻輸出中。
By:Matan Cohen-Grumi
而/encrypt_image,則可以實(shí)現(xiàn)輸入 logo image,生成圖像動(dòng)畫中含有 logo 的效果:
By:Matan Cohen-Grumi
值得一提的是,最好將 logo 文件處理為黑底白圖,否則 pika labs 可能無法識(shí)別。
使用/encrypt_image 命令時(shí),除了輸入一張 logo image,還可以選擇性增加一張墊圖,墊圖會(huì)對(duì)視頻整體風(fēng)格、內(nèi)容產(chǎn)生影響。
③控制參數(shù)介紹
在 Prompt-tutorial 頻道,有很多值得一看的教學(xué)視頻,而在 showcase 頻道和官方 twitter 中可以看到許多優(yōu)秀案例。
Pika labs 和 Runway Gen-2 效果對(duì)比
A.生成效果對(duì)比
Runway VS Pika(8 月版)
B.運(yùn)鏡控制效果對(duì)比
Runway VS Pika(By:瑤醬)
C.對(duì)比小結(jié)
1)可控性
經(jīng)過 9 月 runway 在控制器上的大更新,目前兩者的控制能力不相上下。細(xì)節(jié)上,Runway 在 motion 控制效果上略勝一籌,而 Pika labs 在圖形、文字的顯示上更快一步。
2)連貫性
舊版 Pika labs 在幀的連貫性上差一些,但近期官方將幀數(shù)改為 24 幀后效果提升顯著,和 Runway 沒有較大差異。
3)生成效果
在嘗試并看過很多案例發(fā)現(xiàn),Runway 生成效果通常比 Pika labs 的生成效果動(dòng)作幅度更大更夸張,這也是導(dǎo)致 Runway 生成的許多效果有明顯瑕疵的原因。在一些場(chǎng)景下,我個(gè)人更喜歡 Pika labs 在細(xì)節(jié)上呈現(xiàn)的高水平動(dòng)態(tài)效果,能夠保證主體物沒有明顯變形和風(fēng)格化。但 Pika labs 總是呈現(xiàn)物體動(dòng)而背景靜止的效果,Runway 的大幅度變化有時(shí)能帶來更多意想不到的效果。
我們也可以通過 Prompt 或者在 pika 中增加鏡頭變換(對(duì),不是 motion,前面說過 pika 在 motion 上控制效果不顯著)來增加運(yùn)動(dòng)幅度。
4)價(jià)格
Runway 最低檔的充值每月 15 刀,而 Pika labs 目前完全免費(fèi)??偟膩碚f,目前 runway 和 pika labs 都需要反復(fù)測(cè)試視頻生成效果,并通過后期的剪輯處理形成可用的視頻內(nèi)容。由于 Runway 嘗試次數(shù)實(shí)在有限,我個(gè)人還是喜歡使用 Pika labs 更多一點(diǎn)。
更多效果對(duì)比可查看: https://youtu.be/CB_Y-5yaQ-M
2. Stable Diffusion +
這應(yīng)該是目前最具備可控性的一種 AI 視頻生產(chǎn)方式了,同時(shí)也具備著一定上手成本。最早是看到海辛的分享,通過學(xué)習(xí) Nenly 同學(xué)(B 站)的保姆級(jí)教程(從安裝到使用包教包會(huì))和具體工具教程一步步理清思路并進(jìn)行了案例實(shí)踐。下面對(duì)用到的具體插件進(jìn)行詳細(xì)介紹,由于過程確實(shí)復(fù)雜,理解起來需要一定門檻,對(duì) SD 不感興趣的同學(xué)可以跳過這一段,繼續(xù)看其他產(chǎn)品案例就好。
①準(zhǔn)備工作
- 安裝并掌握簡單的 Stable Diffusion 基礎(chǔ),確保 FFmpeg 被安裝(這將保證后續(xù)介紹的擴(kuò)展能夠生成視頻預(yù)覽)。
- 準(zhǔn)備好圖片、視頻素材這里推薦新手選取單人、簡單場(chǎng)景、簡單動(dòng)作變化的視頻,會(huì)更容易出效果(我選擇的蜘蛛俠人物、動(dòng)作變化多,前景色和背景色區(qū)別小,在生成時(shí)容易踩坑);另外需控制視頻的長度,否則生成時(shí)間會(huì)過長。
A. Mov2Mov 逐幀重繪
產(chǎn)品介紹:
最早火起來的 SD 動(dòng)畫插件之一,mov2mov 的原理是提取視頻的幀,并將每一幀按照用戶設(shè)置的模型和 prompt 重新繪制,然后將生成的視頻組合成視頻并輸出。對(duì)比 SD 自帶的批量圖生圖,更推薦 mov2mov 插件。直接通過提示詞控制、生成最終視頻,省去了用其他視頻產(chǎn)品將多張圖片轉(zhuǎn)成視頻的過程。但比起 Deforum,Mov2Mov 的能力比較單一,生成視頻的閃爍也較大,勝在操作十分簡單。
實(shí)踐過程:
1)用 SD 的 isnet_Pro 插件將視頻轉(zhuǎn)成幀
2)選取其中一幀,嘗試不同模型、Lora、Prompt 下的效果,最終我選取了 Counterfeit 的二次元風(fēng)格模型和其對(duì)應(yīng)的 VAE,該模型繪制效果偏復(fù)古漫畫風(fēng)格。
提示詞微調(diào)的情況下,不同大模型繪制出的效果
3)下載 mov2mov 插件,并使用視頻轉(zhuǎn)視頻,等待一段較長的時(shí)間后就可以在 output 文件夾內(nèi)看到視頻效果啦。為了加快生成速度,我將視頻等比縮小成了 960*540 尺寸進(jìn)行生成(此舉會(huì)對(duì)風(fēng)格化效果有所影響:與原圖 1:1 輸出時(shí),風(fēng)格化效果偏 2.5D,1:0.5 輸出時(shí),效果偏 2D,不過這不影響我們了解 mov2mov 的效果)
最終效果演示推薦 Nenly 同學(xué)的 mov2mov 教程:https://www.bilibili.com/video/BV1Su411b7Nm/
B. EbSynth 自動(dòng)補(bǔ)幀
產(chǎn)品介紹:
EbSynth 是一款輕量的圖片處理軟件,早在 19 年就公開發(fā)布。AI 繪畫火爆后,許多創(chuàng)作者使用 EbSynth 自動(dòng)生成關(guān)鍵幀之間的過渡幀,從而實(shí)現(xiàn)靜態(tài)圖像到動(dòng)畫的轉(zhuǎn)換。相較 mov2mov 逐幀轉(zhuǎn)繪的方法,EbSynth 可大幅降低動(dòng)畫制作的時(shí)間。
官網(wǎng)下載客戶端: https://ebsynth.com/
實(shí)踐過程:
通過手動(dòng)抽取關(guān)鍵幀,隨后進(jìn)行關(guān)鍵幀重繪,再使用 EbSynth 桌面端軟件補(bǔ)幀并使用 AE 圖片序列轉(zhuǎn)視頻:
1.先使用 SD 的 isnet_Pro 插件將視頻轉(zhuǎn)成幀
2.人工選取一些動(dòng)作有明顯變化的關(guān)鍵幀,放在 SD 圖生圖中逐張進(jìn)行風(fēng)格化
3.提取視頻的蒙版,將視頻導(dǎo)出 Alpha Channel 序列,方便后續(xù)導(dǎo)入 EbSynth Mask 類目。開啟“蒙版繪制”將人物和背景分開繪制,以達(dá)到減少“視頻閃爍”的效果。
這一步有多種方法可以解決:
a.在 AE 中蒙版繪制,該操作需要原視頻背景比較干凈,和主體部分有明顯的色彩差異。操作教程在這里: https://www.youtube.com/watch?v=81L1y3LwX6Y
b.如果你付費(fèi)了 Runway,有一種更簡單的方式可以提取 Alpha Channel 序列,那就是使用自動(dòng)綠幕摳像功能,在選中人物主體后,已經(jīng)能夠比較精準(zhǔn)的識(shí)別每一幀中的主體信息,即使是在如下案例中,主體和背景差距很小的情況下也表現(xiàn)的優(yōu)秀(導(dǎo)出的視頻仍需使用 isnet_Pro 插件轉(zhuǎn)成幀,保存為 Mask 文件夾)
1)打開 EbSynth 本地應(yīng)用,在關(guān)鍵幀之間補(bǔ)幀,最終得到了一堆補(bǔ)幀后生成的圖片
拖拽剛才生成的文件夾到 AE 中,編輯成視頻并導(dǎo)出
EbSynth 視頻生成效果 Miles 整體的動(dòng)畫效果不錯(cuò),而 Gwen 在動(dòng)作范圍變化較大的時(shí)候還存在較多瑕疵,此時(shí)應(yīng)該增加更多風(fēng)格化關(guān)鍵幀,這里作為案例演示,不再深入了。另外如果在圖像生成過程中增加 controlnet 控制,生成的圖像效果應(yīng)該能夠保持更多的一致性。
( 另外 EbSynth 還有一款 SD 插件,配合安裝額外工具可以最大程度的將 AI 視頻生成工作流保留在 SD 中,但經(jīng)過嘗試不推薦使用 mac 系統(tǒng)的同學(xué)使用,額外工具在 mac 上的安裝較為繁瑣,插件存在運(yùn)行 bug。使用 Windows 系統(tǒng)的同學(xué)可參考 Nenly 同學(xué)的教程: https://www.bilibili.com/video/BV1uX4y1H7U3
總的來說,EbSynth 可以在僅生成 1/10-1/5 風(fēng)格化關(guān)鍵幀的同時(shí)通過補(bǔ)幀達(dá)到不錯(cuò)的視頻效果。
C.Deforum 文/圖生視頻
產(chǎn)品介紹
Deforum 是一個(gè)基于 Stable Diffusion 的開源項(xiàng)目,可實(shí)現(xiàn)復(fù)雜的縮放、位移、旋轉(zhuǎn)動(dòng)畫,并且可以同時(shí)控制多個(gè)幀間隔中的動(dòng)畫差異、提示詞差異??煽匦赃h(yuǎn)遠(yuǎn)超過 Runway 和 Pika labs,生成效果也十分驚艷,缺點(diǎn)是控制參數(shù)較為復(fù)雜,生成時(shí)間較長,逐幀重繪方式效率低。項(xiàng)目地址: https://github.com/deforum-art/deforum-stable-diffusion
優(yōu)秀案例
我非常喜歡的一個(gè) Deforum 案例,使用了多段圖生視頻剪輯:
By Art On Tap
使用方法
Deforum 的設(shè)置比較復(fù)雜,需要一些耐心,重要的設(shè)置項(xiàng)都在下圖中說明了:
不同設(shè)置項(xiàng)目的差異可以看如下測(cè)試,在以下單一參數(shù)設(shè)置為 0:(0.5)時(shí),其中旋轉(zhuǎn)中心點(diǎn)需和角度搭配使用:
看了上面的設(shè)置,你可能會(huì)感到頭痛,如果我們因?yàn)橐恍┰蛑貑?SD,所有的項(xiàng)目都要重新設(shè)置一遍嗎?這里對(duì)比其他擴(kuò)展,Deforum 提供了一個(gè)非常方便的能力,點(diǎn)擊圖片生成區(qū)域下方的“保存設(shè)置”即可將此時(shí) Deforum 擴(kuò)展中的所有設(shè)置保存,點(diǎn)擊“載入所有設(shè)置”,除了初始化圖像輸入框中的圖片需要重新導(dǎo)入,其他都可以直接使用。同時(shí)每一次視頻生成,Deforum 都會(huì)將運(yùn)行的設(shè)置項(xiàng)代碼保存在相應(yīng)的文件夾中,方便用戶回溯。
注:Deforum 采取的仍然是逐幀繪制的方式,圖片尺寸過大,會(huì)導(dǎo)致視頻生成時(shí)間太長。相應(yīng)的,縮小圖片尺寸,生成的細(xì)節(jié)和細(xì)節(jié)質(zhì)量會(huì)降低,在對(duì)視頻效果沒啥把握的前期,建議等比縮小視頻尺寸,生成滿意的效果后再按大圖生成最終視頻。
實(shí)踐過程
這里我選了一張?jiān)?Midjourney 中繪制的賽車圖像,想要描繪賽車在賽車場(chǎng)上飛馳的畫面。生成時(shí)主要用到了 3D 控制實(shí)現(xiàn)了車身偏移的效果,并且添加了鏡頭的縮小放大。盡管比 Mov2Mov 生成的效果更好,但 Deforum 還是沒法避免閃爍,后面我將介紹另外一款產(chǎn)品 Topaz VideoAI 來解決這個(gè)問題。
資料推薦:
文字教程,包含詳細(xì)的設(shè)置效果教學(xué): https://stable-diffusion-art.com/deforum/
詳細(xì)的視頻教學(xué) : https://www.youtube.com/watch?v=meSF8MsC2PM
更硬核的教程 ,使用 Paseq 工具更好的控制 Deforum 的復(fù)雜參數(shù): https://www.youtube.com/watch?v=n4zj1lrbIEM
D. Infinite zoom 圖片無限放大
產(chǎn)品介紹
Infinite zoom 可以基于原圖生成高分辨率的無限縮放圖像。主要思路是首先生成不同尺度的圖像切片,然后通過重疊融合生成無縫的大圖像,并可以不斷放大瀏覽。該插件提供 Prompt 分段輸入,分別控制整體場(chǎng)景和樣式,近景內(nèi)容,中景內(nèi)容和遠(yuǎn)景內(nèi)容,方便更細(xì)致地控制無限縮放圖像的場(chǎng)景與細(xì)節(jié)。Github: https://github.com/v8hid/infinite-zoom-automatic1111-webui
使用方法
比起 Deforum,Infinite zoom 的設(shè)置比較簡單,生成圖片張數(shù)和視頻秒數(shù)相同。
實(shí)踐過程
實(shí)驗(yàn)了幾次后發(fā)現(xiàn),即使是蒙版邊緣模糊度拉到最高,還是會(huì)出現(xiàn)圖片之間明顯的接縫,圖片似乎會(huì)以疊加的方式融合,會(huì)出現(xiàn)一些內(nèi)容被生硬蓋住的情況。
詳細(xì)的視頻教學(xué): https://www.youtube.com/watch?v=qkZXvQ5aMiYhttps://www.youtube.com/watch?v=E6ZYrzn5iWU&t=6s
E.AnimateDiff 文/圖生視頻
產(chǎn)品介紹
首先需要安裝 SD 擴(kuò)展并下載對(duì)應(yīng)的運(yùn)動(dòng)模型。在 SD 的文生圖 Tab 中可以找到 AnimateDiff 菜單,啟用后,在生成圖片的同時(shí)還會(huì)生成視頻。9 月,AnimateDiff 也發(fā)布了相機(jī)運(yùn)動(dòng)控制模塊,不過需要分別下載模型來實(shí)現(xiàn)。
近期更新中,AnimateDiff 能夠?qū)崿F(xiàn)類似 Deforum、Infinite Zoom 中的分段提示詞能力,直接在正向 Prompt 輸入框中使用格式提示詞即可實(shí)現(xiàn)。
ComfyUI 是另一個(gè)基于 Stable Diffusion 的圖形用戶界面,可以通過拖拽圖片的方式導(dǎo)入他人的工作流,部署也比 SD webui 更簡單,生成速度快,缺點(diǎn)是節(jié)點(diǎn)控制比較復(fù)雜,深度學(xué)習(xí)有一定門檻。近期 ComfyUI 在 AnimateDiff 擴(kuò)展的使用上受到歡迎。
使用 ComfyUI+AnimateDiff 還能突破 webui 中 AnimateDiff 最高 32 幀的限制,在 Comfy UI 的 AnimateDiff 擴(kuò)展 git 地址中,我們可以復(fù)用作者的工作流快速復(fù)現(xiàn)效果: https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved
資料推薦
Stable Diffusion webui 擴(kuò)展地址: https://github.com/continue-revolution/sd-webui-animatediff.git
AnimateDiff Motion Modules 下載地址: https://civitai.com/models/108836Comfy
UI git: https://github.com/comfyanonymous/ComfyUI#manual-install-windows-linuxComfy?
UI Mac 安裝教程: https://stable-diffusion-art.com/how-to-install-comfyui/Comfy?
UI Manager 安裝、AnimateDiff 安裝和初步使用: https://www.youtube.com/watch?v=SGivydaBj2w
F. Warpfusion 視頻生視頻
一款視頻生視頻工具,不過使用前需要購買該程序代碼(10 刀),使用 Google Collab,webui 比較復(fù)雜。前段時(shí)間火爆全網(wǎng)的雕塑跳舞動(dòng)畫就是用該工具生成的。
詳細(xì)教程和效果: https://www.youtube.com/watch?v=mVze7REhjCI
②Topaz Video AI
產(chǎn)品介紹
Topaz Labs 成立于 2008 年,總部位于美國猶他州,是一家圖像處理軟件公司。最初以 Photoshop 插件起家,后來轉(zhuǎn)向研發(fā)獨(dú)立軟件。其于 2022 年推出 Topaz Video AI,能夠提升視頻清晰度、支持將視頻升級(jí)到最高 60 幀的水平。Topaz 還提供了算法模型用于減少閃爍、去噪、去除動(dòng)態(tài)模糊、顏色校正、慢動(dòng)作等等。該產(chǎn)品可以作為 Pika labs、Runway、SD 視頻生成擴(kuò)展的最強(qiáng)輔助。價(jià)格為 299 美刀。
官方地址:https://www.topazlabs.com/topaz-video-ai
使用指南:https://docs.topazlabs.com/video-ai/features/user-interface
實(shí)踐過程
這里我將 Deforum 中的賽車圖生視頻拖入 Topaz 中進(jìn)行生成,可以看到優(yōu)化后閃爍問題有了極大改善,并且通過放大視頻變得非常清晰。
視頻上傳后會(huì)有壓縮,可能無法讓大家感受直觀的效果。
本小節(jié)產(chǎn)品多以網(wǎng)頁、APP 形式呈現(xiàn),個(gè)人用戶可以很簡單上手使用。該方向下目前體驗(yàn)上和 AI 能力上支持較好的屬 Synthesia、HeyGen AI、D-ID 和 Opus Clip。前三者都是 AI Avatar+語音生成快速生產(chǎn)視頻的產(chǎn)品。而 Move AI 則能夠輕松實(shí)現(xiàn)動(dòng)作捕捉。
1. Synthesia
①產(chǎn)品特點(diǎn)
強(qiáng)調(diào)無需麥克風(fēng)、攝像機(jī)、專業(yè)演員出鏡即可制作視頻,內(nèi)置 100 多種人物形象和多語言配音能力,幫助企業(yè)節(jié)省制作費(fèi)用和周期。同時(shí)能一鍵生成多國語言視頻,便于企業(yè)本土化推廣。主打方向?yàn)椋浩髽I(yè)內(nèi)部的網(wǎng)絡(luò)培訓(xùn)課(通常需要一個(gè)人物形象出鏡)、產(chǎn)品營銷視頻、客戶服務(wù)(產(chǎn)品幫助文檔轉(zhuǎn)換為視頻)等。該產(chǎn)品不提供免費(fèi)方案,與 HeyGen AI、D-ID 對(duì)比更致力于服務(wù)企業(yè)客戶。付費(fèi)方案類似 MJ 的流量策略。官方透露的數(shù)據(jù)為 5w 用戶、1500w 視頻生成量。官網(wǎng)地址: https://www.synthesia.io/
②功能介紹
可以通過簡單的 PPT 制作生成視頻 Demo,可以替換 AI 頭像庫中的形象、制作簡單的動(dòng)畫等。同時(shí)支持多種視頻(PPT)模板。
2. HeyGen AI(原 Movio)
①產(chǎn)品特點(diǎn)
2020 年成立,和 Sythesia 類似。主打廣告營銷、企業(yè)培訓(xùn)、講解、銷售等多個(gè)需要人物形象出鏡的內(nèi)容。因?yàn)楦嫦?ToC 消費(fèi)者,HeyGen 比起 Sythesia 能夠體驗(yàn)到更多豐富的功能(需付費(fèi)使用)。官網(wǎng)地址: https://www.heygen.com/
By:Poonam Soni
②功能介紹
內(nèi)置 100+ AI avatars,支持 40 多種語言,300+ 聲音,除了語音生成和對(duì)口型,這部分內(nèi)容更偏模版生成。此外還可以創(chuàng)建個(gè)人 Avatar,需錄制兩段 5-10 分鐘的視頻后生成。
支持輸入腳本快速創(chuàng)建視頻。
支持通過 prompt 的方式創(chuàng)建 AI Talking Photo(Avatar),并支持給 Avatar 更換服裝、一鍵換臉。
最近推出的新功能 Video Translate 可以將視頻中的語言翻譯成其他語言,并保證嘴型和內(nèi)容進(jìn)行對(duì)應(yīng),該功能非常有助于企業(yè)在海外不同國家進(jìn)行產(chǎn)品營銷。(可以在左下角 Labs-Video Translate 找到)
3. D-ID
①產(chǎn)品特點(diǎn)
D-ID 來自一家以色列 AI 創(chuàng)業(yè)公司,該公司此前推出的“Deep Nostalgia”(將老照片中失散已久的親人的臉動(dòng)畫化)和“LiveStory”(在動(dòng)畫照片中添加音頻,讓照片中的人講述自己的生活史)等項(xiàng)目曾在 Tiktok 等社交媒體上瘋傳。D-ID 主打方向同樣是 AI Avatar 生成視頻,比起 Synthesia、HeyGen AI、D- ID 提供了更多 credits(20 個(gè))讓用戶試用。除了 AI 視頻生成器之外,該公司還提供與 Microsoft PowerPoint 兼容的 AI Presenters,允許用戶將虛擬演示者添加到幻燈片中并創(chuàng)建更具吸引力和互動(dòng)性的演示文稿。
但實(shí)際測(cè)試效果遠(yuǎn)不如 HeyGen 自然,嘴部模糊較多。
官網(wǎng)地址: https://app.heygen.com
4. Invideo AI 腳本生成+視頻匹配
①產(chǎn)品特點(diǎn)
該產(chǎn)品能夠在數(shù)十秒時(shí)間內(nèi)輕松實(shí)現(xiàn) Prompt 轉(zhuǎn)視頻,并且支持通過編輯器進(jìn)行后期更改。過去類似科技、財(cái)經(jīng)、資訊類重腳本內(nèi)容的視頻在制作時(shí)需花費(fèi)大量時(shí)間尋找視頻素材、還需注意視頻版權(quán)問題。未來可以使用 Invideo AI 類的產(chǎn)品快速、低成本地進(jìn)行視頻畫面制作。
官網(wǎng)地址: https://ai.invideo.io
②功能介紹
在官方教程中,建議對(duì)視頻平臺(tái)、主旨內(nèi)容、視頻長度、語氣、腳本風(fēng)格進(jìn)行描述
上傳視頻后,還會(huì)再次詢問視頻內(nèi)容傾向
如果對(duì)生成的視頻不滿意,可以重新選擇內(nèi)容傾向進(jìn)行編輯,也可以修改腳本、搜索并替換視頻片段(由此可以看出區(qū)別于 Pika labs、Runway 的 AI 生成視頻,Invideo 的原理是 AI 生成腳本并匹配視頻素材)
在視頻生成后,仍可以通過 Prompt 修改視頻內(nèi)容,免費(fèi)賬戶無法去除視頻上的水印。
②實(shí)踐案例
- 輸入 Prompt“K 公司剛研制出了一款新品乳液,采用了天然草本精華,使用后膚色潔白透亮,并且不再擔(dān)心冬天氣候干燥帶來的皮皮膚干裂困擾,請(qǐng)幫這款新品制作一個(gè) 30s 的宣傳片”
- 選擇 Youtube 平臺(tái)非??焖俚厣闪嗽撘曨l,標(biāo)題為“Embrace Winter with K's Herbal Emulsion 用 K's 草本乳液擁抱冬天”,實(shí)際視頻為 27s。
Opus Clip 長視頻轉(zhuǎn)短視頻
②產(chǎn)品特點(diǎn)
支持上傳長視頻地址,自動(dòng)將長視頻轉(zhuǎn)換為適合不同平臺(tái)的短視頻,支持自動(dòng)生成字幕、符號(hào)表情、調(diào)整視頻大小、并且能夠自動(dòng)識(shí)別人物主體,適合播客、長視頻作者、營銷人員使用。在多種視頻內(nèi)容和平臺(tái)并存的流媒體時(shí)代,該工具很好的切中了創(chuàng)作者痛點(diǎn)。上線短短 3 個(gè)月便擁有了 40 萬+用戶,生成 3000 萬+個(gè)剪輯。
官網(wǎng)地址: https://www.opus.pro/#ai-emoji-generator
生成多段視頻后,系統(tǒng)還會(huì)給出評(píng)分分析該視頻的傳播能力。
今年早些時(shí)候,官方更新了算法,保證人物主體可以保持在屏幕中間。
有些遺憾的是,該產(chǎn)品無法在國內(nèi)使用,并且檢測(cè)到使用魔法后將取消賬號(hào)獲得的免費(fèi) credits,感興趣的朋友可以付費(fèi)使用。
5. Wonder Dynamics AI 動(dòng)捕
①產(chǎn)品特點(diǎn)
發(fā)力 CG 場(chǎng)景,支持自動(dòng)將 CG 角色動(dòng)畫、打光合成到真實(shí)場(chǎng)景中。使用流程主要為:自動(dòng)識(shí)別視頻中的人物動(dòng)作,用戶可選擇扣除或者替換成 CG 形象,CG 形象會(huì)直接替換視頻中的所有場(chǎng)景,節(jié)約了大量的逐幀 VEX(視頻編輯和合成)工作。目前普通用戶僅支持試用官網(wǎng)模板,官方提供的 CG 形象都偏科幻類、動(dòng)畫題材。
②官方案例
官方 Twitter: https://twitter.com/DemNiko1/status/1683932450907652096
官方網(wǎng)站 : https://wonderdynamics.com/#features
6. Move AI AI 動(dòng)捕
由一家成立于 19 年的英國公司推出,該產(chǎn)品主打通過手機(jī)拍攝視頻畫面實(shí)現(xiàn)動(dòng)作捕捉,無需佩戴動(dòng)捕設(shè)備即可獲取動(dòng)作捕捉數(shù)據(jù),能夠極大降低 3D 動(dòng)畫制作成本。
(目前測(cè)試版應(yīng)用還比較簡陋,公開可下載的 Move AI 版本目前也不再接受新用戶注冊(cè),全部功能開放使用應(yīng)該還需要一定時(shí)間)
官網(wǎng)地址: https://www.move.ai/
①使用方法
Move AI 支持多臺(tái)移動(dòng)端設(shè)備同時(shí)錄制視頻,視頻上傳到 web 端后進(jìn)行動(dòng)作檢測(cè),支持導(dǎo)出為 FBX 等格式的文件,并導(dǎo)入 iClone 8、Blend、Maya 等軟件中,驅(qū)動(dòng)模型進(jìn)行動(dòng)作播放。
目前無法實(shí)踐測(cè)試效果,找了半年前的一個(gè)測(cè)評(píng)案例給大家看下,by JSFILMZ: https://www.youtube.com/watch?v=PDFqN_pvEUE
該產(chǎn)品若開放使用,會(huì)對(duì)電影、游戲 3D 動(dòng)畫制作、虛擬主播直播、影視劇制作等場(chǎng)景會(huì)產(chǎn)生深刻影響。Move AI 強(qiáng)調(diào)和其他動(dòng)捕使用手機(jī)拍攝短片,這也讓我看到了在游戲和產(chǎn)品設(shè)計(jì)工作中大幅降低 3D 動(dòng)畫制作成本的可能。未來設(shè)計(jì)師可能只需要拍攝特定動(dòng)作并映射到制作好的 3D 模型中,快速制作動(dòng)畫方案。
本小節(jié)產(chǎn)品無法被個(gè)人用戶使用,僅開放給企業(yè)客戶。
1. Deep Motion
Deep motion 開發(fā)了端到端的人體動(dòng)態(tài)捕捉系統(tǒng) LiveMotion。它可以只通過一個(gè)攝像頭就可以精確捕捉人的全身動(dòng)作,無需佩戴任何傳感器設(shè)備。其核心技術(shù)是他們自主研發(fā)的基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)和動(dòng)作預(yù)測(cè)算法。該算法可以從單個(gè)視角準(zhǔn)確構(gòu)建和預(yù)測(cè)人體的三維動(dòng)作。目前 Deep Motion 在探索與一些頭部科技公司的合作,以將其人體動(dòng)態(tài)捕捉技術(shù)應(yīng)用到更多消費(fèi)級(jí)產(chǎn)品中。在官網(wǎng)上傳一段 20s 以內(nèi)的視頻,便可以選擇形象創(chuàng)建動(dòng)態(tài)捕捉后的 Avatar 動(dòng)畫,支持用戶自定義 Avatar 形象。
用 Deep Motion 識(shí)別了一段跳舞視頻
Deep Motion 做為動(dòng)捕領(lǐng)域老牌選手,致力于精確再現(xiàn)人體動(dòng)作進(jìn)行專業(yè)內(nèi)容制作。而 Move AI 致力于使用移動(dòng)端低成本拍攝,產(chǎn)品體驗(yàn)更簡單,使用門檻更低。
2. Stability Animation
Stability AI 在 2023 年初發(fā)布,支持視頻+文本生視頻(Video 2 Video)、圖片+文本生視頻、文本生視頻但目前僅支持以 API 的方式接入,收費(fèi)較高。
產(chǎn)品介紹: https://platform.stability.ai/docs/features/animation
本小節(jié)挑選出一些還不具備完整產(chǎn)品形態(tài),或僅提供少數(shù)功能測(cè)試而沒有將全部能力開放使用。但從產(chǎn)品方向、目前披露的實(shí)驗(yàn)效果來看值得持續(xù)關(guān)注的項(xiàng)目。
1. Rerender A Video
該項(xiàng)目由南洋理工大學(xué)團(tuán)隊(duì)發(fā)布,是目前為數(shù)不多的專注于視頻增強(qiáng)和修復(fù)的 AI 項(xiàng)目之一,代表了通過深度學(xué)習(xí)提升舊視頻質(zhì)量的新方向。項(xiàng)目核心特點(diǎn)在于重新渲染用戶輸入的視頻時(shí)能夠提升視頻在幀之間的時(shí)間一致性。該團(tuán)隊(duì)將 Rerender a Video 和之前的幾類文生視頻框架進(jìn)行了對(duì)比,包括 FateZero、vid2vid-zero、Pxi2Video 和 Text2Video-Zero 等,Rerender 效果提升顯著。該項(xiàng)目目前已開源,可在 Hugging Face 免費(fèi)試用。
項(xiàng)目介紹: https://anonymous-31415926.github.io
Demo 地址: https://huggingface.co/spaces/Anonymous-sub/Rerender
①如何使用
上傳視頻后,可以調(diào)節(jié)相關(guān)數(shù)值并進(jìn)行進(jìn)行幾個(gè)關(guān)鍵操作,解析見圖片:
在 T4 GPU 下,大小為 512x640 的視頻每個(gè)關(guān)鍵幀的運(yùn)行時(shí)間約為 1 分鐘??傮w生成效果好,但速度較慢。
3. Showrunner AI
早在今年 4 月,斯坦福大學(xué)和 Google 合作開發(fā)的有關(guān) AI 數(shù)字世界的的研究 SmallVille(小鎮(zhèn)) 就引起了 AI 領(lǐng)域的廣泛關(guān)注,25 個(gè)人工智能體居住在一個(gè)沙盒虛擬城鎮(zhèn)中通過復(fù)雜的社交互動(dòng)來執(zhí)行他們的日常生活。(該項(xiàng)目近期已開源)
①項(xiàng)目介紹
而 Showrunner AI 項(xiàng)目受到 SmallVille 項(xiàng)目啟發(fā),致力于采用多智能體和 LLM 大語言模型模擬生成的故事情節(jié)內(nèi)容。主要運(yùn)用 LLM、Diffusion model 和 IP 形象生成高質(zhì)量情節(jié)內(nèi)容。在劇集生成過程中,故事系統(tǒng)可以利用模擬數(shù)據(jù)(一天中的時(shí)間、區(qū)域、角色)作為提示鏈的一部分自動(dòng)生成場(chǎng)景,提示鏈?zhǔn)紫壬珊线m的標(biāo)題,第二步生成場(chǎng)景的對(duì)話。劇集系統(tǒng)則負(fù)責(zé)為每個(gè)場(chǎng)景生成角色。場(chǎng)景中定義了每個(gè)演員的位置、對(duì)話。每個(gè)角色的聲音都已提前克隆,在對(duì)話生成后能夠生成語音文件。
目前只有官方視頻流出,視頻中用戶只需選擇南方公園的角色撰寫一個(gè)新的故事,并且生成新的電視節(jié)目劇集:
②可能的應(yīng)用場(chǎng)景
劇情粉絲可以將個(gè)人角色融入到故事其中創(chuàng)作新劇集,甚至創(chuàng)作和原著完全不同的劇情走向。
創(chuàng)作者可創(chuàng)作個(gè)人 IP 和故事,制作相應(yīng)的角色創(chuàng)作劇集并開設(shè)相應(yīng)的付費(fèi)頻道進(jìn)行盈利。比如小說創(chuàng)作者可以更輕松的將小說劇情轉(zhuǎn)電視劇或者動(dòng)畫。
官方 twitter: https://twitter.com/fablesimulation/status/1681352904152850437
論文地址 : https://fablestudio.github.io/showrunner-agents/
內(nèi)測(cè)申請(qǐng): https://www.thesimulation.co/
③推薦關(guān)注
推薦一些在 AI 繪畫、動(dòng)畫制作領(lǐng)域的頭部創(chuàng)作者
- Pika labs、Runway、Deforum 的官方號(hào),除了及時(shí)更新新功能消息,還會(huì)轉(zhuǎn)發(fā)使用產(chǎn)品創(chuàng)作出的優(yōu)秀動(dòng)畫效果。
- 在 Runway Studios 中,可以查看更多創(chuàng)意合作案例: https://studios.runwayml.com/#after-light
- 一位喜歡用 Pika labs 制作廣告的導(dǎo)演,他的視頻質(zhì)量非常高: https://twitter.com/MatanCohenGrumi
- Ammaar Reshi,其個(gè)人網(wǎng)站記錄了所有 AI 作品 https://ammaar.me/ai, 其團(tuán)隊(duì)使用 Stable WarpFusion + Davinci Resolve 制作完整的動(dòng)漫劇情,制作過程分享
- 使用 Runway 制作煙霧效果的思路: https://twitter.com/CitizenPlain/status/1687147807499792384
- Ricardo Villavicencio 使用 Runway 進(jìn)行短篇?jiǎng)赢嬛谱鞯倪^程分享:https://twitter.com/runwaymlstudios/status/1692163312207745074
- @valleeduhamel 使用現(xiàn)有的素材、Gen-1 和大量合成創(chuàng)作了新電影《After Light》的過程分享: https://twitter.com/runwayml/status/1679484350641983491
- 國內(nèi)視頻頭部創(chuàng)作者: 海辛、萊森
當(dāng)前 AI 視頻生成領(lǐng)域仍面臨生成質(zhì)量不穩(wěn)定導(dǎo)致的不同幀之間的“閃爍”現(xiàn)象,以及動(dòng)作扭曲不連貫、細(xì)節(jié)表征不足等技術(shù)難題。并且 AI 視頻當(dāng)前還遠(yuǎn)沒有達(dá)到簡單、便捷,可控性增強(qiáng)的同時(shí),上手成本也在成倍增加。未來的研究突破方向包括:生成更長時(shí)序、更高質(zhì)量的視頻;渲染復(fù)雜的三維虛擬背景;模仿細(xì)微的人類運(yùn)動(dòng)和肢體語言;以及實(shí)現(xiàn)超高分辨率視頻生成等。隨著 AI 能力的增強(qiáng),AI 視頻生成技術(shù)、可交互性還擁有很大的進(jìn)步空間。
參考鏈接
- 關(guān)于視頻的 AI,現(xiàn)在都有什么? https://www.notion.so/AI-f34125f586c44a1194ae5b2a0b64c4ea
- 和 AI 一起做動(dòng)畫 | 將人工智能融入動(dòng)畫工作流的案例和實(shí)踐經(jīng)驗(yàn) https://mp.weixin.qq.com/s/tGlvrC_CanprU7eTooqShg
- 2023 年利用 Ai 根據(jù)文本生成視頻技術(shù)發(fā)展到什么程度了? - 微軟亞洲研究院的回答 - 知乎 https://www.zhihu.com/question/585003769/answer/2971702509
- Stable Diffusion 喂飯級(jí)教學(xué):B 站 nenly
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。
發(fā)評(píng)論!每天贏獎(jiǎng)品
點(diǎn)擊 登錄 后,在評(píng)論區(qū)留言,系統(tǒng)會(huì)隨機(jī)派送獎(jiǎng)品
2012年成立至今,是國內(nèi)備受歡迎的設(shè)計(jì)師平臺(tái),提供獎(jiǎng)品贊助 聯(lián)系我們
品牌形象設(shè)計(jì)標(biāo)準(zhǔn)教程
已累計(jì)誕生 726 位幸運(yùn)星
發(fā)表評(píng)論 為下方 6 條評(píng)論點(diǎn)贊,解鎖好運(yùn)彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評(píng) ↓