大家好,這里是和你們一起探索 AI 的花生~
最近一種新的圖像生成形式逐漸興起,即生成的圖像會隨輸入的文字或筆畫動作迅速變化,這讓圖像生成有了更多靈活探索和準確控制的空間。這種「實時反饋」的感覺源于模型能在幾秒鐘內(nèi),根據(jù)輸入生成新的內(nèi)容,而之所以能有這么快的生成速度,依靠的就是 LCM 這項新技術(shù)。
視頻內(nèi)容來源: https://twitter.com/krea_ai/status/1723067313392320607
視頻內(nèi)容來源: https://twitter.com/TitusTeatus/status/1723961348101677353
LCM 項目主頁: https://latent-consistency-models.github.io/
Github 主頁: https://github.com/luosiallen/latent-consistency-model
LCM 全稱 Latent Consistency Models(潛在一致性模型),是清華大學(xué)交叉信息科學(xué)研究院研發(fā)的一款生成模型。它的特點是可以通過少量步驟推理合成高分辨率圖像,使圖像生成速度提升 2-5 倍,需要的算力也更少。官方稱 LCMs 是繼 LDMs(Latent Diffusion Models 潛在擴散模型)之后的新一代生成模型。
LCM 的上一代是今年 6 月份的推出的 Consistency Models(CM,一致性模型)。用過 Stable Diffusion 的小伙伴都知道,我們在生成圖像的時候需要設(shè)置「 采樣步數(shù) Steps」,這個參數(shù),涉及到的是 Diffusion 模型中的去噪(Denoise)過程,即以迭代的方式從一張純噪聲圖中一步步去除噪點,直至它變成一張清晰的圖像。采樣步數(shù)一般需要 20-50 步。
Consistentcy Models 則對去噪推理這一步進行了優(yōu)化,它不再需要像 Diffusion 模型那樣逐步迭代,而是追求“一步完成推理”,這樣需要處理的步數(shù)減少了,圖像的生成速度自然就提升了。LCM 則是在 Consistency Models 的基礎(chǔ)上引入了 Lantent Space (潛空間),進一步壓縮需要處理的數(shù)據(jù)量,從而實現(xiàn)超快速的圖像推理合成。LCM 官方以此訓(xùn)練了一個新的模型 Dreamshaper-V7,僅通過 2-4 步就能生成一張 768*768 分辨率的清晰圖像。
LCM 官方提供了 2 個可以免費在線試玩的 Demo,分別是文生圖和圖生圖。文生圖 Demo 使用的就是 Dreamshaper-V7 模型,我試了一下的確可以在幾秒之內(nèi)就生成 4 張圖,速度非常驚人,大家也可以去體驗一下。
文生圖試玩 Demo: https://huggingface.co/spaces/SimianLuo/Latent_Consistency_Model
圖生圖試玩 Demo: fofr/latent-consistency-model – Run with an API on Replicate
目前可以用的 LCM 模型有 Dreamshaper-V7 和 LCM-SDXL,LCM 也以拓展插件的形式加入了 A1111 WebUI 和 ComfyUI,支持文生圖、圖生圖和視頻生成視頻,安裝插件后我們就可以在自己電腦上體驗一下這種 2 款新模型的生成效率。如果你還不了解插件的安裝方式,可以查看我之前寫的 SD WebUI 插件安裝教程 ,或者了解我最新制作的課程 《AI繪畫入門完全指南》 ,系統(tǒng)全面地了解 SD WebUI 的使用方法和技巧。
① Dreamshaper-V7 模型下載: SimianLuo/LCM_Dreamshaper_v7 at main (huggingface.co) (文末有資源包)
② LCM-SDXL模型下載: latent-consistency/lcm-sdxl · Hugging Face --- 潛在一致性/lcm-sdxl ·擁抱的臉 (文末有資源包)
③ LCM WebUI 插件安裝使用: https://github.com/0xbitches/sd-webui-lcm
④ LCM ComfyUI 插件安裝使用: https://github.com/0xbitches/ComfyUI-LCM
LCM 可以有效縮短圖像的生成時間,但它的模型需要單獨訓(xùn)練,前面的提到的 Dreamshaper-V7 和 LCM-SDXL 是目前僅有的 2 款可以在 LCM 插件中使用的大模型,這顯然不符合大家的使用需求。為了改變這種情況,官方又訓(xùn)練出了 LCM-LoRA 模型,可以搭配 SD1.5 和 SDXL 的所有大模型使用,這比上面安裝 LCM 插件更方便。目前我們可以在 ComfyUI 和 Fooocus 中使用 LCM-LoRA。
① LCM-LoRA 項目主頁: https://huggingface.co/blog/lcm_lora
② lcm-lora-sdv1-5 下載: https://huggingface.co/latent-consistency/lcm-lora-sdv1-5
③ lcm-lora-sdxl 下載: https://huggingface.co/latent-consistency/lcm-lora-sdxl
LoRA 模型在文末有資源包,下載后安裝到 ComfyUI 根目錄的 loras 文件夾內(nèi)即可(如果是和 WebUI 共享的模型,就放到 WebUI 的 lora 文件夾內(nèi) )。在 ComfyUI 中使用 LCM-LoRA 需要注意以下幾點:
- 模型下載鏈接內(nèi)包含模型使用方法和注意事項,使用需要仔細閱讀;
- 在 ComfyUI 中使用 lcm-lora 需要先安裝 ComfyUI-LCM 插件;
- 采樣步數(shù) Steps 數(shù)值在 2 - 8 之間,CFG 參數(shù)在 1.0 - 2.0 之間。
下圖是在 ComfyUI 中使用 lcm-lora-sdv1-5 的工作流(json 文件在文末資源包內(nèi)),經(jīng)測試生成 4 張圖像僅需 3 秒。速度的確非???,但圖像質(zhì)量比起正常的 Stable Diffusion 模型來說還是稍微差了一些。
如果想在 Fooocus 中使用 LCM-LoRA,需要安裝最新版的 Fooocus ,然后將文末資源包內(nèi)的 sdxl_lcm_lora 放入 Fooocus\models\loras 文件夾中。啟動后,在 setting 中選擇 Extreme Speed 模式,系統(tǒng)會啟動 lcm-lora。然后在 Models 中選擇一個 SDXL 大模型,lora 和 style 可以自定義,再點擊生成即可。經(jīng)測試生成一張 1024*1024 px 的圖像只需要 9 秒,比之前快了 5 倍,圖像質(zhì)量依舊保持的不錯。
Animatediff 是目前最受關(guān)注的 AI 視頻工具之一,可以通過文本生成流暢的動圖或視頻。有了 LCM 之后,Animatediff 的圖像處理速度也得到了明顯提升。據(jù)我個人測試,使用 lcm-lora 后生成一個 16 幀的動圖只需要 27 秒,如果不使用則需要 75 秒,速度差了 3 倍。
ComfyUI 中使用 lcm-lora-sdv1-5 + Animatediff 的工作流(json 文件在文末資源包內(nèi)):
效果圖:
LCM 讓我們看到了 SD 模型在生成速度上的突破,雖然目前質(zhì)量稍微差了一些,但 AI 技術(shù)的發(fā)展速度是驚人的,未來肯定會有改善。而隨著 LCM 的發(fā)展成熟,圖像處理速度可能會進一步縮短到毫秒級,這將極大促進實時文生圖、圖生圖以文生視頻的發(fā)展,給用戶帶更好的使用體驗;也可能會進一步和 Controlnet 或者 IP-Adapter 兼容,來提升這些插件的處理效率。
以上就是本期為大家介紹的新一代生成模型 LCM 的相關(guān)內(nèi)容,喜歡本期推薦的話記得點贊收藏支持一波,之后會繼續(xù)為大家?guī)砀?AI 繪畫干貨知識~ 也歡迎大家掃描下方的二維碼加入“優(yōu)設(shè) AI 繪畫交流群”,和我及其他設(shè)計師一起交流學(xué)習(xí) AI 知識。
推薦閱讀:
復(fù)制本文鏈接 文章為作者獨立觀點不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。
熱評 星若AI