大家好,我是歸藏。
今天帶來可靈 2.1 首尾幀模型的測試和使用教程,重點(diǎn)是教你解決首尾幀視頻最難的兩部分圖片生成和提示詞生成,尤其后面提示詞價值很高,都能做產(chǎn)品了,建議收藏。
更多教程:
前幾天可靈給超級創(chuàng)作者開了 2.1 模型的首尾幀視頻生成的權(quán)限,抽時間試了一下。
發(fā)現(xiàn)這個模型對于提示詞理解和遵循以及圖片轉(zhuǎn)換的自然度都搞得太好了,基本上在首尾幀這個功能上已經(jīng)到頂了。
知道有朋友習(xí)慣先質(zhì)疑在質(zhì)疑,先看結(jié)果。
所有分鏡都是一次生成沒有抽卡,就是素材拼接沒有剪輯,只有簡單變速。
是不是很好,而且這條視頻我從頭到尾基本只用了半小時就搞定了,等待視頻生成的時候還能干別的。
這時候很多朋友就要說了:“就會騙我們,為啥我用的時候就得瘋狂抽卡”。
我也反思了一下原因,在模型能力很強(qiáng)的情況下依然需要抽卡和沒辦法獲得好素材的原因主要有兩個:
首先是沒辦法獲得合適的圖片
雖然可靈 2.1 首尾幀已經(jīng)強(qiáng)到了完全無關(guān)的兩張圖片也可以順滑的轉(zhuǎn)換,比如下面這個視頻。但是肯定不像前后關(guān)聯(lián)的圖片帶給觀眾的沖擊強(qiáng)。
第二點(diǎn)就是有了圖片之后不會寫提示詞
你獲得了兩張合適的圖片,本能的意識到兩者是有關(guān)聯(lián)的,但是具體如何有美感和自然的從首幀變到尾幀自己是沒有辦法詳細(xì)的描述的,所以就造成了你覺得變化的過程不符合自己的要求,只能通過不斷抽卡祈禱出現(xiàn)奇跡。
所以今天藏師傅就教一下從獲取合適的圖片素材以及如何寫提示詞兩方面生成優(yōu)質(zhì)的首尾幀視頻,順便看看可靈 2.1 的首尾幀模型有多強(qiáng)大。
首先我們來看一下如何獲取用來做首尾幀視頻生成的合適圖片,我自己平時主要用三個方法:相同提示詞抽卡、修改提示詞抽卡、使用 FLUX Kontext 等圖像編輯模型對圖片進(jìn)行編輯。
首先是相同提示詞抽卡:
由于是相同提示詞并且很多模型在同時生成多張的時候種子是一致的,所以多張圖中很容易找到相似度很高的圖片,非常適合用來做展示類的首尾幀視頻。
比如我上面視頻里面的每個角色展示的分鏡就是相同提示詞生成的,我找了兩個面部和形體相似但是背景和服裝不同的兔子來完成展示,可以看到可靈過渡的非常好,尤其是面部,給人感覺連貫性很強(qiáng)。
仿古畫,版畫,水墨,古風(fēng),筆觸感,大師級構(gòu)圖,可愛俏皮的兔子精,白發(fā)發(fā)髻,神話,詭譎,奇幻,山海經(jīng),毛絨絨白色裝飾,黑色背景,
修改提示詞抽卡:
如果我們要做畫面中主要人物或者物品的移動或者消失出現(xiàn),一個合適的方法就是,先寫出尾幀的提示詞,生成圖片后根據(jù)需求更改其中的一部分就行。
比如這個富士山和汽車的畫面就是先有汽車停在富士山下的提示詞,然后在刪掉汽車的部分完成的。
首幀提示:mount fuji on the background centered,, professional color grading, 4k, shot on RED camera, wallpaper quality尾幀提示:two R34 nissan skylines, stunning, with mount fuji on the background centered,, professional color grading, 4k, shot on RED camera, wallpaper quality
使用圖像編輯模型編輯:
以前想要編輯圖片基本只能局部重繪,但是局部重繪局限性非常大,索性我們最近有了不少可用的圖像編輯模型。
通過自然語言就可以編輯圖片,這樣我們就能實現(xiàn)對圖片的精確控制,制作出各種特效。
比如將扁平的 Logo 圖片變成有豐富材質(zhì)和背景的視頻,我就是拿了一張 Logo 圖片然后用圖片編輯模型讓他加上材質(zhì)更換背景。
最后在用可靈 2.1 首尾幀生成視頻的時候可以看到從扁平到金屬材質(zhì)的過程可靈還加上了非常順滑的過渡一點(diǎn)不突兀。
也可以讓某個人物拿上東西或者放下東西,這個在電商場景非常實用。
比如下面這個就是用原始的模特圖片和后面拿上產(chǎn)品的圖片生成的,模特和產(chǎn)品都可以保持一致性,可用性相當(dāng)高,而且可靈生成的時候完全沒有常見的手部細(xì)節(jié)問題。
當(dāng)然我們也可以用這個方式去做非常炫酷的文字特效。
比如我這里就先生成了一個金屬文字的 KLING,然后用圖像編輯模型修改文字,分別變成了 2.1 和 First Last Frame,然后用可靈 2.1 首尾幀能力生成兩個視頻,拼起來就是連貫的文字變化特效。
當(dāng)然,我們也可以加上更加豐富的變化,比如每個分鏡不止文字會變化文字材質(zhì)和周圍環(huán)境也發(fā)生變化,整個表現(xiàn)力會更加豐富,而且可靈 2.1 不止響應(yīng)了文字本身的變化,環(huán)境的變化也跟文字是同步的。
圖像編輯常見的人物或者玩偶變裝特效也很好玩,比如這里讓 Labubu 做個簡單變裝。
我上面所有的首尾幀的提示詞沒一個是我自己寫的,完全是 AI 生成的。
先給大家用來生成首尾幀視頻的提示詞,然后教一下大家提示詞為什么這么寫。將你想要生成的首尾幀圖片和這個提示詞一起扔給任何一個頭部的多模態(tài)模型就可以了。
這個提示詞可以生效也是因為可靈 2.1 的首尾幀提示詞理解和遵循能力大幅增強(qiáng)的緣故。
藏師傅的首尾幀提示詞生成提示:
你是一位頂尖的創(chuàng)意視頻導(dǎo)演和VFX(視覺特效)概念藝術(shù)家。你的任務(wù)是為AI視頻生成模型設(shè)計一個從【起始幀】到【結(jié)束幀】的轉(zhuǎn)場過程。
你的核心目標(biāo)是:構(gòu)思并用一段話清晰、具體地描述這個動態(tài)視覺變化。
在構(gòu)思時,請遵循以下創(chuàng)作框架:
第一步:分析差異 快速判斷【起始幀】和【結(jié)束幀】的差異程度。
A類 - 關(guān)聯(lián)性強(qiáng): 主體或場景基本一致,只是狀態(tài)、風(fēng)格或環(huán)境發(fā)生改變(例如,同一個人換了衣服,同一個場景從白天到黑夜)。
B類 - 差異巨大: 主體和場景完全不同(例如,一只貓在客廳 → 一艘飛船在太空)。
第二步:選擇轉(zhuǎn)場策略
如果屬于 A類,優(yōu)先采用“原地演變”的策略。讓變化直接發(fā)生在主體和環(huán)境上,盡量不使用或只使用微弱的攝像機(jī)移動。
如果屬于 B類,采用“運(yùn)鏡驅(qū)動轉(zhuǎn)場”的策略。必須使用一種明確的攝像機(jī)移動(如推、拉、搖、移、旋轉(zhuǎn))來引導(dǎo)過渡,讓鏡頭運(yùn)動成為連接兩個不相干畫面的橋梁。
第三步:構(gòu)思具體變化(從以下工具箱中選擇組合)
主體變化: 主體如何改變?(形態(tài)變化、材質(zhì)替換、服裝更替、分解重組、消失或出現(xiàn))。
環(huán)境變化: 背景如何改變?(時間流逝、季節(jié)更替、空間切換、從現(xiàn)實變?yōu)榛孟耄?/p>
風(fēng)格/特效變化: 用什么視覺風(fēng)格或特效來包裝這個過程?(例如,畫面逐漸像素化后重組、被火焰/水流吞噬后顯現(xiàn)、轉(zhuǎn)變?yōu)樗?油畫風(fēng)格、出現(xiàn)光效粒子)。
輸出規(guī)則:
將你的最終構(gòu)思整合為一個連貫的段落。
描述要具體、直接,充滿畫面感。專注于“我們看到了什么”,而不是“我們感覺到了什么”。
嚴(yán)格遵守你在第二步中選擇的攝像機(jī)移動策略。
避免使用模糊的比喻和過于文學(xué)化的修辭。
現(xiàn)在,請根據(jù)我提供的【起始幀】(圖片A)和【結(jié)束幀】(圖片B),生成你的轉(zhuǎn)場描述。
看下這個提示詞有多強(qiáng),他會自動判斷兩張圖片的差異度,然后根據(jù)差異的不同采取不同的提示詞生成策略。
需要注意的是這個提示詞生成的視頻提示需要模型有非常強(qiáng)的提示詞理解和遵循能力,所以目前應(yīng)該只有可靈 2.1 效果比較好。
比如這種兩張圖片有相關(guān)性的,他就會優(yōu)先用原地演變的原則主要重點(diǎn)放在主體和環(huán)境身上,讓人物穿衣服,背景的植物生長來完成首尾幀的轉(zhuǎn)換。
畫面開始時,少女俯身在地,隨著她緩緩抬起上身,她身后的盆景松樹也開始悄然生長,枝干以肉眼可見的速度變得更加粗壯和舒展,同時,少女裙擺和發(fā)髻上的孔雀羽飾也隨之展開。當(dāng)她完全坐直,將目光從地面移向前方時,背景的光線由柔和的漫射光轉(zhuǎn)變?yōu)槊髁恋木酃?,將她和生長后的松樹輪廓勾勒得更為清晰,而她身旁原先獨(dú)立的假山石已經(jīng)和松樹的根部融為一體,成為她坐下的石臺。整個過程中,攝像機(jī)非常緩慢地向左平移,最終將人物與生長后的樹木一同置于畫面中心,完成了構(gòu)圖的變化。
如果兩張圖片差異巨大甚至完全無關(guān)怎么辦,他就會要求模型加上運(yùn)鏡進(jìn)行過渡,讓連貫的鏡頭表現(xiàn)變成鏈接兩張圖片的橋梁,而且模型也會自己加上一些特效變化讓一個具體的材質(zhì)引導(dǎo)畫面變化,一下就讓兩張圖片有了聯(lián)系。
比如這里的狐貍和龍差別很大,模型就讓狐貍的綢帶變?yōu)榱肆鲃拥臐饽诤线M(jìn)了水墨的巨龍身體里面,一下就讓兩者有了關(guān)聯(lián),比如你就會想狐貍是不是就是巨龍的一個化身,而且我都沒想到這個轉(zhuǎn)場可靈 2.1 可以搞定。
鏡頭首先聚焦于狐妖腰間飄動的一條彩色綢帶,隨著一股無形的風(fēng)起,這條綢帶掙脫束縛,向畫面深處和高處飛去。攝像機(jī)立即啟動,以一個平滑的弧線運(yùn)鏡緊緊跟隨這條綢帶。在高速運(yùn)動中,綢帶的絲綢質(zhì)感逐漸溶解,其上的多彩顏色開始褪去并融合成單一的、流動的濃墨。與此同時,背景中的亭臺樓閣在動態(tài)模糊中被迅速替換為灰色的、翻涌的云海。當(dāng)綢帶完全轉(zhuǎn)化為一道粗壯的墨跡時,它的表面開始浮現(xiàn)出細(xì)密的黑色鱗片紋理,并繼續(xù)在云霧中延展、壯大,演化為龍的身體。鏡頭沿著這條由綢帶演變而來的龍身繼續(xù)向前推進(jìn)并上搖,最終穿出云層,定格在【結(jié)束幀】中那顆巨大威嚴(yán)的龍頭上,它的一對金瞳在陰沉的云海中赫然亮起。
這套提示詞也不是 LLM 憑空產(chǎn)生的,而是我跟模型討論的結(jié)果。
我先規(guī)定了一些基礎(chǔ)的提示詞生成原則,比如運(yùn)鏡不要太多,文學(xué)性修辭和比喻不要太多,產(chǎn)出了一個基礎(chǔ)的要求。
然后就開始跟模型討論兩張圖片變化的本質(zhì)其實就是模型對“過程”和“變化”的理解與想象。
然后就開始遍歷到底兩張圖片之間會有哪些變化和過程,遍歷了一下發(fā)現(xiàn)確實是可以窮盡的,然后在對這么多狀態(tài)進(jìn)行分類和組合,最后得出了常見的變化和組合主體變化 + 環(huán)境變化或者風(fēng)格變化 + 特效變化這兩種。
結(jié)合結(jié)合這兩者的特點(diǎn)和我前面的提示詞書寫要求,結(jié)合生成了最終的提示詞,如果你以后想寫自己的提示詞也可以參考這個思路。
好了教程基本上已經(jīng)寫完了,我們來總結(jié)一下藏師傅這套可靈 2.1 首尾幀的通關(guān)攻略。
- 三張王牌拿圖法(同提示詞抽卡、改提示詞抽卡、FLUX Kontext 編輯)
- 一條萬能提示詞,讓多模態(tài)模型替你寫提示詞
但真正的價值不在這里,而在你接下來 10 分鐘要做的兩件事。
第一件事:把「流程」固化成「資產(chǎn)」
把今天所有步驟打包成一個模板:首幀圖鏈接 | 尾幀圖鏈接 | 差異分類(A/B)| 生成提示詞 | 成片鏈接。以后任何新項目,直接往模板里填圖,10 秒出提示詞,半小時出片。這套模板可能就是你未來三個月的睡后生產(chǎn)力。
第二件事:把「特效」升維成「敘事」
首尾幀的本質(zhì)不是「過渡」,而是「因果」。狐貍 → 巨龍:綢帶化墨只是視覺鉤子,真正的敘事是「妖狐渡劫化龍」。少女 → 盆景:樹長人坐只是動態(tài)美感,真正的敘事是「人景共生」。當(dāng)你用「因果」而不是「過渡」去寫提示詞,觀眾看到的就不是特效,而是故事。從「特效師」變成「敘事者」,你的視頻單價至少翻 5 倍。
工具會迭代,模型會升級,但「流程資產(chǎn)化 + 敘事升維」這兩件事永遠(yuǎn)不過時?,F(xiàn)在,輪到你把「可靈 2.1 首尾幀」寫進(jìn)自己的復(fù)利曲線了。
最后如果覺得藏師傅這套方法對你有幫助的話,歡迎幫我點(diǎn)個贊或者喜歡??,也可以轉(zhuǎn)發(fā)需要的朋友。
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。
發(fā)評論!每天贏獎品
點(diǎn)擊 登錄 后,在評論區(qū)留言,系統(tǒng)會隨機(jī)派送獎品
2012年成立至今,是國內(nèi)備受歡迎的設(shè)計師平臺,提供獎品贊助 聯(lián)系我們
AI輔助海報設(shè)計101例
已累計誕生 753 位幸運(yùn)星
發(fā)表評論 為下方 9 條評論點(diǎn)贊,解鎖好運(yùn)彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓