AI視頻生成這么強(qiáng)?帶你快速了解發(fā)展概況和應(yīng)用場(chǎng)景!

AI 生成視頻發(fā)展到什么程度了,效果如何?有哪些可用的產(chǎn)品方案?網(wǎng)上炫酷的效果如何實(shí)現(xiàn)?AI 視頻的應(yīng)用場(chǎng)景和案例有哪些?

本著對(duì)以上問(wèn)題的探索,我開(kāi)啟了 AI 視頻系列的探索。上篇將著重介紹技術(shù)發(fā)展概況和應(yīng)用場(chǎng)景思考。

更多AI視頻生成神器介紹:

一、技術(shù)發(fā)展概況

長(zhǎng)期以來(lái),人們對(duì) AI 視頻技術(shù)應(yīng)用的認(rèn)知停留在各種“換臉”和視頻特效上。隨著 AI 圖像領(lǐng)域的技術(shù)發(fā)展,AI 視頻技術(shù)也逐漸取得了突破。本節(jié)內(nèi)容結(jié)合 Claude、Perplexity 查詢(xún)、項(xiàng)目論文整理而成。

1. 生成方法

從交互方式來(lái)看,當(dāng)前 AI 視頻生成主要可分為文本生成視頻、圖片生成視頻、視頻生成視頻三種形式。

一些視頻生成方法是先生成靜態(tài)關(guān)鍵幀圖像,然后構(gòu)建為視頻序列。也存在直接端到端生成視頻的技術(shù),無(wú)需進(jìn)行多階段處理即可生成視頻,如基于 GAN、VAE、Transformer 的方法。

當(dāng)視頻在手機(jī)上無(wú)法加載,可前往PC查看。

微軟 NUWA-XL:通過(guò)逐步生成視頻關(guān)鍵幀,形成視頻的“粗略”故事情節(jié),然后通過(guò)局部擴(kuò)散模型(Local Diffusion)遞歸地填充附近幀之間的內(nèi)容。

2. 關(guān)鍵幀 + 補(bǔ)間技術(shù)方式間的差異

代表產(chǎn)品:Deforum、AnimateDiff、Rerender a Video

(1)關(guān)鍵幀生成方式很多,主要通過(guò)各種 AI 生成圖片的方式解決,最主流的方式是 Stable Diffusion,可最大程度的保證不同幀風(fēng)格一致,在下文中會(huì)詳細(xì)介紹實(shí)操案例。

(2)補(bǔ)幀算法:主要用于平滑關(guān)鍵幀之間的動(dòng)作和細(xì)節(jié)。

光流補(bǔ)幀:通過(guò)計(jì)算兩幀圖像之間每個(gè)像素的運(yùn)動(dòng)向量,根據(jù)光流場(chǎng)生成中間幀。優(yōu)點(diǎn)是計(jì)算量較小,速度快。代表產(chǎn)品是 EbSynth。

基于姿態(tài)補(bǔ)幀:利用人體關(guān)鍵點(diǎn)檢測(cè)計(jì)算姿態(tài)信息(關(guān)節(jié)位置、角度等信息),進(jìn)行中間幀圖像合成。適合為具有復(fù)雜運(yùn)動(dòng)的復(fù)雜對(duì)象或角色制作動(dòng)畫(huà)。

重參考補(bǔ)幀:使用相鄰的后向和前向幀作為參考,通過(guò)雙向幀信息進(jìn)行像素級(jí)補(bǔ)幀。

(3)完善策略: 進(jìn)一步提升生成視頻的整體質(zhì)量和連貫性,協(xié)同補(bǔ)幀算法,彌補(bǔ)關(guān)鍵幀生成可能存在的各類(lèi)缺陷。不同模型使用的方法有所差異。

漸進(jìn)補(bǔ)幀:通過(guò)迭代多次補(bǔ)幀完善視頻質(zhì)量,逐步提升分辨率和連貫性。

遞歸框架:遞歸完善每一幀,直到達(dá)到質(zhì)量要求。

增強(qiáng)后處理:使用圖像增強(qiáng) GAN 等技術(shù),對(duì)生成的視頻進(jìn)行修復(fù)和提升,特別提升存在模糊、殘影等問(wèn)題的區(qū)域,增強(qiáng)整體質(zhì)量。

對(duì)比學(xué)習(xí):指學(xué)習(xí)和對(duì)比真實(shí)高質(zhì)量視頻數(shù)據(jù),從中提取提升生成視頻細(xì)節(jié)的模式。

模糊處理:使用濾波、平滑等算法處理生成視頻,減少幀間的不連貫引起的毛刺和鋸齒問(wèn)題,增強(qiáng)視覺(jué)流暢性。

融合多個(gè)模型:不同模型生成相同視頻,進(jìn)行模型融合。

3. 端到端視頻生成的技術(shù)差異

代表產(chǎn)品:Runway

GAN 生成對(duì)抗網(wǎng)絡(luò):

是一種無(wú)監(jiān)督的生成模型框架,通過(guò)讓兩個(gè)神經(jīng)網(wǎng)絡(luò)相互博弈來(lái)進(jìn)行機(jī)器學(xué)習(xí)??梢陨梢曈X(jué)逼真度高的視頻,但控制難度大、時(shí)序建模較弱。

VAE 變分自編碼器:

它是一種可以學(xué)習(xí)數(shù)據(jù)分布的網(wǎng)絡(luò)結(jié)構(gòu)。就像把視頻文件壓縮成較小的文件再解壓一樣,它可以重建視頻數(shù)據(jù)。VAE 可以根據(jù)條件輸入控制生成過(guò)程,但質(zhì)量較 GAN 略低。

GAN、VAE 生成視頻速度快,缺點(diǎn)是生成質(zhì)量和分辨率較低,長(zhǎng)度短,控制能力弱。

Transformer 自注意力機(jī)制:

通過(guò)學(xué)習(xí)視頻幀之間的關(guān)系,理解視頻的長(zhǎng)期時(shí)間變化和動(dòng)作過(guò)程,這種方式對(duì)長(zhǎng)視頻建模更好,時(shí)序建模能力強(qiáng),可實(shí)現(xiàn)細(xì)粒度語(yǔ)義控制,缺點(diǎn)是計(jì)算量大。

4. AI 視頻生成當(dāng)前面臨的問(wèn)題

當(dāng)前仍面臨生成時(shí)間長(zhǎng)、視頻質(zhì)量不穩(wěn)定,生成的視頻語(yǔ)義不連貫、幀間存在閃爍、分辨率較低等問(wèn)題。解決方案有:

使用漸進(jìn)生成、增強(qiáng)時(shí)序一致性的模型等方法解決。

上述的補(bǔ)幀算法、視頻完善策略也可在一定程度上緩解問(wèn)題。

二、應(yīng)用場(chǎng)景思考

1. 現(xiàn)階段應(yīng)用場(chǎng)景

在盤(pán)點(diǎn)完全部產(chǎn)品后,我感受到 AI 視頻產(chǎn)品目前面向的主要受眾群體有:

(1)專(zhuān)業(yè)創(chuàng)作者(藝術(shù)家、影視人等):

AI 生成能夠?yàn)樽髌焚x予獨(dú)特風(fēng)格和想象力,為創(chuàng)作者提供靈感,配合高超的剪輯技巧和敘事能力,便可以制作出超乎想象的效果。低成本動(dòng)捕更是能夠大幅降低后期制作的門(mén)檻和成本,自動(dòng)識(shí)別背景生成綠幕、視頻主體跟隨運(yùn)動(dòng)等能夠輔助視頻編輯,為后期制作增加更多空間。

目前該應(yīng)用主要集中在音樂(lè) MV、短篇電影、動(dòng)漫等方向。

一些 AI 視頻平臺(tái)也積極尋求創(chuàng)意合作,為創(chuàng)作者提供免費(fèi)支持。

當(dāng)視頻在手機(jī)上無(wú)法加載,可前往PC查看。

@valleeduhamel 使用現(xiàn)有的素材、Gen-1 和大量合成創(chuàng)作了新電影《After Light》的過(guò)程分享

當(dāng)視頻在手機(jī)上無(wú)法加載,可前往PC查看。

Ammaar Reshi 的團(tuán)隊(duì)使用 Stable WarpFusion + Davinci Resolve 制作完整的動(dòng)漫劇情,制作過(guò)程分享

(2)自媒體、非專(zhuān)業(yè)創(chuàng)作者:

這部分人群通常有著非常具體且明確的視頻剪輯痛點(diǎn)。

a. 比如科技、財(cái)經(jīng)、資訊類(lèi)重腳本內(nèi)容的視頻在制作時(shí)需花費(fèi)大量時(shí)間尋找視頻素材、還需注意視頻版權(quán)問(wèn)題。一些產(chǎn)品(Invideo AI、Pictory)已經(jīng)在發(fā)力腳本生成分鏡、視頻,幫助創(chuàng)作者降低視頻素材制作門(mén)檻。

Gamma AI 已經(jīng)實(shí)現(xiàn)了文章高效轉(zhuǎn) PPT 的能力,若能結(jié)合 Synthesia、HeyGen AI、D-ID 等產(chǎn)品的 Avatar、語(yǔ)音生成能力也可快速轉(zhuǎn)化為視頻內(nèi)容。

當(dāng)視頻在手機(jī)上無(wú)法加載,可前往PC查看。

b.不同平臺(tái)適合不同內(nèi)容形式,創(chuàng)作者想要將同一個(gè)素材在不同平臺(tái)分發(fā)就意味著制作成本的升高。而 OpusClip 提供的長(zhǎng)視頻轉(zhuǎn)短視頻致力于解決這一痛點(diǎn)。

當(dāng)視頻在手機(jī)上無(wú)法加載,可前往PC查看。

(3)企業(yè)客戶(hù):

對(duì)于沒(méi)有足夠視頻制作資金的小企業(yè)、非盈利機(jī)構(gòu)來(lái)說(shuō),AI 視頻生成可以為其大幅縮減成本。

想要制作低成本的營(yíng)銷(xiāo)視頻、企業(yè)宣傳視頻、培訓(xùn)課程,可以使用 Synthesia、HeyGen AI、D-ID 等產(chǎn)品,用 Avatar 代替真人出鏡。

又如出海企業(yè)需要給產(chǎn)品(商品)推廣、介紹使用體驗(yàn),早在 21 年,詩(shī)云馬良平臺(tái)就推出了給視頻中模特?fù)Q臉、切換語(yǔ)言的能力,方便電商營(yíng)銷(xiāo)商家進(jìn)行產(chǎn)品的本地化推廣。近期 HenGen AI 也公布了 AI 切換視頻內(nèi)語(yǔ)言的能力,并且能夠?qū)?Avatar 口型與視頻相匹配。

AI視頻生成這么強(qiáng)?帶你快速了解發(fā)展概況和應(yīng)用場(chǎng)景!

在互聯(lián)網(wǎng)設(shè)計(jì)工作流中的應(yīng)用暢想

在互聯(lián)網(wǎng)產(chǎn)品設(shè)計(jì)領(lǐng)域,設(shè)計(jì)師的工作主要涉及宣傳視頻、3D 動(dòng)畫(huà)、頁(yè)面動(dòng)畫(huà)、圖標(biāo)動(dòng)畫(huà)制作,且產(chǎn)出內(nèi)容需具備具體需求場(chǎng)景下落地的要求。

目前 Move AI 這樣的產(chǎn)品讓我看到了在游戲和產(chǎn)品設(shè)計(jì)工作中大幅降低 3D 動(dòng)畫(huà)制作成本的可能。未來(lái)設(shè)計(jì)師可能只需要拍攝特定動(dòng)作并映射到制作好的 3D 模型中,快速制作動(dòng)畫(huà)方案。

AI視頻生成這么強(qiáng)?帶你快速了解發(fā)展概況和應(yīng)用場(chǎng)景!

By Mark Peart

目前,F(xiàn)igma、Protopie 等產(chǎn)品支持的智能動(dòng)畫(huà)功能已經(jīng)能夠基于補(bǔ)間算法,在用戶(hù)僅定義動(dòng)畫(huà)的開(kāi)始和結(jié)束狀態(tài)的情況下自動(dòng)生成中間幀。未來(lái)不排除實(shí)現(xiàn)通過(guò)文字更加精確的控制動(dòng)畫(huà)的可能。

AI視頻生成這么強(qiáng)?帶你快速了解發(fā)展概況和應(yīng)用場(chǎng)景!

下一篇中,我們將著重了解每個(gè)產(chǎn)品的特點(diǎn)和具體使用方法,也會(huì)通過(guò)實(shí)踐案例展示效果。

應(yīng)用場(chǎng)景思考中提到的視頻工具均會(huì)在下篇出現(xiàn),敬請(qǐng)期待~

收藏 45
點(diǎn)贊 42

復(fù)制本文鏈接 文章為作者獨(dú)立觀(guān)點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。