IP-Adapter!讓AI繪畫(huà)墊圖效率提高10倍的新一代神器

都是“墊圖”,誰(shuí)能還原你心中的圖

“墊圖”這個(gè)概念大家肯定都不陌生,此前當(dāng)無(wú)法準(zhǔn)確用 prompt 描述心中那副圖時(shí),最簡(jiǎn)單的辦法就是找一張近似的,然后 img2img 流程啟動(dòng),一切搞定。

更多墊圖干貨:

可 img2img 簡(jiǎn)單的同時(shí),也有它繞不過(guò)去的局限性,比如對(duì) prompt 的還原度不足、生成畫(huà)面多樣性弱,特別是當(dāng)需要加入 controlnet 來(lái)進(jìn)行多層控制時(shí),參考圖、模型、controlnet 的搭配就需要精心挑選,不然出圖效果常常讓人當(dāng)場(chǎng)裂開(kāi)…

但現(xiàn)在,我們有了新的“墊圖”神器——IP-Adapter,在解讀它之前,先來(lái)直觀的感受一下它的效果。

IP-Adapter!讓AI繪畫(huà)墊圖效率提高10倍的新一代神器

效果可以說(shuō)相當(dāng)炸,那 IP-Adapter 就是終極答案了么?它的泛化性如何?兼容性是否足夠?對(duì) prompt 支持怎么樣?當(dāng)真的要接入現(xiàn)實(shí)工作中它還有什么拓展的能力呢?讓我們一一來(lái)看。

IP-Adapter 的核心優(yōu)勢(shì),只畫(huà)你關(guān)心的事

IP-Adapter 和 img2img 雖然在操作上都是“墊圖”,但它們的底層實(shí)現(xiàn)可以說(shuō)是毫無(wú)關(guān)系。

用個(gè)不嚴(yán)謹(jǐn)?shù)美斫獾睦?,“IP-Adapter”和“img2img”就是兩位畫(huà)師,現(xiàn)在給出 prompt 要求它倆畫(huà)一個(gè)男人,在不提供參考圖的情況下,它們大概都會(huì)畫(huà)成圖 1 的模樣,但是當(dāng)我們加上參考圖 2 的時(shí)候,兩者的區(qū)別就顯現(xiàn)了。

IP-Adapter!讓AI繪畫(huà)墊圖效率提高10倍的新一代神器

img2img 相當(dāng)于直接蓋在參考圖上開(kāi)始臨摹,雖然知道要畫(huà)個(gè)男人,但會(huì)在老虎的基礎(chǔ)上去修改,始終會(huì)很別扭,中間不免出現(xiàn)老虎和男人混淆的情況,畫(huà)出一些強(qiáng)行混合不知所謂的圖來(lái)。因?yàn)樵谶@個(gè)流程中,參考圖更為重要,一切是在它基礎(chǔ)上畫(huà)出來(lái)的,結(jié)果也更傾向于參考圖。

IP-Adapter!讓AI繪畫(huà)墊圖效率提高10倍的新一代神器

IP-Adapter 則不是臨摹,而是真正的自己去畫(huà),它始終記得 prompt 知道自己要畫(huà)個(gè)男人,中間更像請(qǐng)來(lái)了徐悲鴻這樣的藝術(shù)大師,將怎么把老虎和人的特點(diǎn)融為一體,講解得偏僻入里,所以過(guò)程中一直在給“男人”加上“老虎”的元素,比如金黃的瞳仁、王字型的抬頭紋、虎紋的須發(fā)等等。此時(shí),prompt 更為重要,因?yàn)檫@才是它的始終目標(biāo)。

IP-Adapter!讓AI繪畫(huà)墊圖效率提高10倍的新一代神器

當(dāng)然這些都是在一定的參數(shù)范圍內(nèi),超過(guò)了閾值,那必然是要走極端的,照著參考圖去 copy 了。但即便這樣也可以看到 img2img 只是 1:1 的復(fù)制,而 IP-Adapter 有更多 prompt 的影子。

把簡(jiǎn)單的“墊圖”,拓展得大有前途

在理解 IP-Adapter 的邏輯之后,會(huì)發(fā)現(xiàn)它帶來(lái)的改變可不只是“墊圖”,這里先展示一下它在我們工作中的實(shí)例,然后再和大家一步步的去拆解它。

IP-Adapter!讓AI繪畫(huà)墊圖效率提高10倍的新一代神器

以上這些效果實(shí)現(xiàn)很簡(jiǎn)單,只需要添加兩層 controlnet,一層用來(lái)提供 IP-Adapter,一層利用 canny 用來(lái)對(duì)需要添加的商品進(jìn)行繪制、固化即可。

IP-Adapter!讓AI繪畫(huà)墊圖效率提高10倍的新一代神器

如果只是在 webui 中應(yīng)用,那到這里其實(shí)已經(jīng) ok 了。但這次我們要更進(jìn)一步,利用新工具,去實(shí)現(xiàn)更有創(chuàng)造力的能力。

以下重點(diǎn)想分享的更多是工程搭建的能力和效果(具體的方法,我們會(huì)放到以后詳細(xì)的講解):

① 一張圖就是一個(gè)lora,大大降低了訓(xùn)練的成本

② 多參考圖接入,提供更豐富的生成結(jié)果

③ 利用對(duì)prompt的強(qiáng)注意力,提供prompt matrix豐富結(jié)果

④ 基于comfyui的工作流部署,實(shí)現(xiàn)多步驟自動(dòng)化生成

以往要想實(shí)現(xiàn)一個(gè)具體的設(shè)計(jì)風(fēng)格,需要針對(duì)性的訓(xùn)練 lora,背后涉及訓(xùn)練素材的搜集、打標(biāo)、模型訓(xùn)練、效果檢驗(yàn)等多個(gè)環(huán)節(jié),通常要花一兩天,并且結(jié)果還存在很強(qiáng)的不確定性。

但現(xiàn)在,通過(guò) IP-Adapter 這一個(gè)步驟,在幾分鐘內(nèi)就直觀的看到結(jié)果,大大節(jié)省了時(shí)間,敏捷程度簡(jiǎn)直天壤之別。

IP-Adapter!讓AI繪畫(huà)墊圖效率提高10倍的新一代神器

IP-Adapter!讓AI繪畫(huà)墊圖效率提高10倍的新一代神器

當(dāng)我們擁有這些特征,幾乎就得到一個(gè)“即時(shí) lora”,而需要付出的成本只是去找?guī)讖埛项A(yù)期的參考圖。

同時(shí) IP-Adapter 還能一次讀取多張參考圖,讓生成的結(jié)果擁有更豐富的多樣性和隨機(jī)性,這是在 img2img 流程中無(wú)法實(shí)現(xiàn)的,也是兩者之間區(qū)別最大的地方。

IP-Adapter!讓AI繪畫(huà)墊圖效率提高10倍的新一代神器

IP-Adapter!讓AI繪畫(huà)墊圖效率提高10倍的新一代神器

此刻,讓我們把思路再打開(kāi)一些,因?yàn)?IP-Adapter 對(duì) prompt 的強(qiáng)注意力,prompt 中的信息能更直觀的反應(yīng)在結(jié)果中。于是我們可以在繼承 img 風(fēng)格的同時(shí),通過(guò)替換 prompt 里面的關(guān)鍵詞,指向不同的結(jié)果,形成 prompt 的組合矩陣,更進(jìn)一步的拓展生成結(jié)果的多樣性。

IP-Adapter!讓AI繪畫(huà)墊圖效率提高10倍的新一代神器

更進(jìn)一步,再加入不同的 controlnet 和批量素材讀取,來(lái)實(shí)現(xiàn)對(duì)生成結(jié)果的可控引導(dǎo),以及利用批量讀取能力,來(lái)提供更加豐富的模板。一套”0 成本即時(shí) lora + controlnet 可控生成 + prompt matrix 多樣生成“的自動(dòng)化流程就搭建完成了。

這個(gè)流程我們已經(jīng)用在項(xiàng)目中,至于效果,大家的反饋概括為一句話就是——一鍵三連。

IP-Adapter!讓AI繪畫(huà)墊圖效率提高10倍的新一代神器

下面這張圖就是上述流程部署在實(shí)際工作中的樣子,載體是 comfyui,它和 webui 都是基于 stable diffusion 能力,但和 webui 的網(wǎng)頁(yè)化界面不同,它將 SD 的能力分解成不同的節(jié)點(diǎn),通過(guò)節(jié)點(diǎn)關(guān)聯(lián)搭建來(lái)實(shí)現(xiàn)各種功能。所以更加開(kāi)放、自由、多源,并且可以實(shí)現(xiàn)流程的自動(dòng)化,極大的提升了實(shí)際應(yīng)用中的效率,下一期我們會(huì)專(zhuān)門(mén)針對(duì)它來(lái)進(jìn)行解讀。

IP-Adapter!讓AI繪畫(huà)墊圖效率提高10倍的新一代神器

IP-Adapter!讓AI繪畫(huà)墊圖效率提高10倍的新一代神器

到這里,關(guān)于 IP-Adapter 背后的原理和應(yīng)用就整理完了,它有非常多的優(yōu)點(diǎn),但也非常需要結(jié)合實(shí)際的場(chǎng)景來(lái)應(yīng)用,還是那個(gè)觀念,沒(méi)有最好的方法,只有適合的方法。

希望大家用的開(kāi)心,有什么想法建議,十萬(wàn)噸的歡迎,我們下期再見(jiàn)。

這里是枯燥的分割線

有點(diǎn)無(wú)聊,但也很有得聊

看過(guò)它的表現(xiàn)的效果之后,再?gòu)牡讓釉砜纯?IP-Adapter 到底有什么特別。

我們知道 stable diffustion 是擴(kuò)散模型,它的核心作用機(jī)制就是對(duì)噪音的處理,prompt 可以看做是我們的目標(biāo),通過(guò)不斷的去噪過(guò)程,向著目標(biāo)越來(lái)越靠近,最終生成出預(yù)期的圖片。

IP-Adapter!讓AI繪畫(huà)墊圖效率提高10倍的新一代神器

IP-Adapter 則是將圖片單獨(dú)提出作為一種提示特征,相比以往那種只是單純的把圖像特征和文本特征抽取后拼接在一起的方法,IP-Adapter 通過(guò)帶有解耦交叉注意力的適配模塊,將文本特征的 Cross-Attention 和圖像特征的 Cross-Attention 區(qū)分開(kāi)來(lái),在 Unet 的模塊中新增了一路 Cross-Attention 模塊,用于引入圖像特征。

相當(dāng)于將原本 SD 中 img 和 prompt 拼合成一個(gè)向量的做法分開(kāi)來(lái), img 和 prompt 都會(huì)單獨(dú)的組成向量, 然后交給 unet 層, 這樣 img 中的特征就可以更好的被保留下來(lái),從而實(shí)現(xiàn)對(duì)圖像特征更顯性的繼承和保留。

本質(zhì)上 IP-Adapter 就是 txt2img 的流程,流程中 prompt 還是最關(guān)鍵的,只是中間利用 IP-Adapter 強(qiáng)化了參考圖的提示作用。

IP-Adapter!讓AI繪畫(huà)墊圖效率提高10倍的新一代神器

作為對(duì)比,img2img 是直接將參考圖傳入 unet,去替換了原始的隨機(jī)噪音,這樣所有的生成結(jié)果都是建立在它的基礎(chǔ)上,于是有了前面人和老虎混雜的現(xiàn)象就比較好理解了。

IP-Adapter!讓AI繪畫(huà)墊圖效率提高10倍的新一代神器

以上,真的結(jié)束了。see you soon

歡迎關(guān)注「京東設(shè)計(jì)中心JDC」的微信公眾號(hào):

IP-Adapter!讓AI繪畫(huà)墊圖效率提高10倍的新一代神器

收藏 119
點(diǎn)贊 73

復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。