在 2024 年 2 月 12 日,Stability.Ai 公司發(fā)布了新模型 Stable Cascade。
上線了一段時間的新模型,小伙伴們體驗(yàn)感如何呢?這篇文章和你深度聊聊~
往期介紹:
Stable Cascade 模型最大的優(yōu)點(diǎn)是
- 是能生成帶有文字的圖片,文字出錯率相比以前模型少很多;
- 其次是硬件要求降低,甚至與 sd1.5 相比,該架構(gòu)比之前版本實(shí)現(xiàn)了 16 倍的成本降低;
- 最后一大亮點(diǎn)是模型更加理解提示詞語義。
這篇文章帶大家詳細(xì)了解 Stable Cascade 模型。最后我整理打包了此模型,「Stable cascade 模型+安裝方法+工作流」整套放在了文章最后,伙伴們自行下載~
左邊使用 Cascade 模型出的效果圖片
右邊使用 SDXL 模型出圖效果:
提示詞:text“stable”,Made from green shrub leaves,
提示詞:text“stable”,The text is made of colorful energy.
提示詞:A cute cat
提示詞:a cat eating a piece of cheese
提示詞:A high-definition full body photo of a beautiful Asian girl in a summer park,full-size photograph,full-size photograph
通過以上的圖片,小伙伴更喜歡哪種模型出的效果呢~
根據(jù)官方給到的評估結(jié)論,在幾乎所有比較中,Stable Cascade 在理解提示詞語義方面和美觀質(zhì)量方面都表現(xiàn)最好。
Stable Cascade 模型和其他模型的數(shù)據(jù)對比
Cascade 模型與之前的 sd 模型相比,主要區(qū)別是可以在更小的潛空間中工作。
潛空間可以簡單理解為 ai 計(jì)算生成圖片的區(qū)域,潛在空間越小,推理速度就越快,訓(xùn)練成本也就越低。
之前的 sd 模型如果想要生成一張 1024*1024 的圖片,在潛空間的編碼為 128*128,使用的壓縮因子為 8,可以簡單的理解為 1024*1024 的圖片除以 8(壓縮因子)等于在潛空間的編碼大小 128*128。
而 Stable Cascade 的壓縮系數(shù)為 42,這意味著可以將 1024x1024 圖像,在潛空間的編碼為 24x24,這樣就可以使用更小的潛空間尺寸,并且實(shí)現(xiàn)清晰的圖像輸出。甚至與 sd1.5 相比,該架構(gòu)比之前版本實(shí)現(xiàn)了 16 倍的成本降低。
因此,這種模型非常適合快速的生成高質(zhì)量圖片。并且當(dāng)前已知的擴(kuò)展(如微調(diào)、LoRA、ControlNet、IP 適配器、LCM 等)也可以通過此方法實(shí)現(xiàn)。
Stable Cascade 模型邏輯流程圖
1. Stable Cascade 由三個模型組成
Stage A、Stage B 和 Stage C,代表級聯(lián)生成圖像。
「級聯(lián)」是指多個系統(tǒng)、設(shè)備或組件按照一定的順序依次連接起來,形成一個整體,其中前一個系統(tǒng)、設(shè)備或組件的輸出作為后一個的輸入。因此得名“Stable Cascade”。
2. Stable Cascade 如何級聯(lián)運(yùn)行
A 階段和 B 階段用于壓縮圖像,類似于 stable diffusion 中 VAE 的工作。然而,通過這種設(shè)置,可以實(shí)現(xiàn)更高的圖像壓縮。此外,階段 C 負(fù)責(zé)在給定文本提示的情況下生成小的 24 x 24 潛伏。
比如輸入提示詞“鱷梨形狀的扶手椅”,就會進(jìn)入到第一步潛在的生成器,并且使用 stage C 模型生成較小的潛在圖像,生成完成后,會進(jìn)入到 stage B 和 stage A,對生成的潛在圖像內(nèi)容還原到像素空間。
Stable Cascade 模型輸入提示詞后的生成流程
1. 下載模型
①模型下載分為兩個部分:Cascade 模型+clip 模型;
②cascade 模型又分為 stageA,stageB,stageC,官方對 stage C 和 stage B 分別提供了兩個版本,每個模型只需要下載其中一個即可;
③其中 stage C 提供 10 億和 36 億參數(shù)版本,官方強(qiáng)烈建議使用 36 億版本,生成的圖像會有更加有細(xì)節(jié)。
Stage B 的兩個版本分別達(dá)到 7 億和 15 億個參數(shù)。15 億擅長重建微小而精細(xì)的細(xì)節(jié)。
④最后,Stage A 包含 2000 萬個參數(shù),只有一個版本直接下載默認(rèn)版本的即可。
如果你的電腦性能足夠,當(dāng)前建議直接下載較大文件體積的模型,能夠獲得更好的結(jié)果。
clip 模型在 text_encoder 文件夾,只有一個版本,下載 model.safetensors 模型即可。
這些模型我也打包好了,放在文章的最后,可以直接下載使用。
2. 安裝模型
將 stage C 和 stage B 這兩個模型放置到 ComfyUI 根目錄\ComfyUI\models\unet 文件夾中。
stage C 和 stage B 這兩個模型放置的文件位置
stage A 模型放置到 ComfyUI 根目\ComfyUI\models\vae 文件夾中
stage A 模型放置的文件位置
最后將 clip 模型放置到 ComfyUI 根目錄\ComfyUI\models\clip 文件夾中,這樣使用 cascade 的模型安裝也完成了。
clip 模型放置的位置
3. 更新 Comfyui 版本
將 comfyui 更新到最新版本即可,官方將需要的模塊已經(jīng)同步進(jìn)模型包了,
comfyui 的更新方法,打開秋葉的啟動器,具體怎么將秋葉啟動器安裝到官方的 comfyui 包中,可以參考這條視頻的方法。
一分鐘教你使用秋葉啟動器對 Comfyui 進(jìn)行升降版本,版本管理:
點(diǎn)擊“版本管理”-右上角的“一鍵更新”按鈕,即可將 comfyui 更新到最新版本。
秋葉啟動器安裝到官方的 comfyui 包,進(jìn)行一鍵更新
4. 工作流搭建
拿到官方更新的 cascade 工作流之后,工作流應(yīng)該會默認(rèn)安裝好這四個模型,你也可以點(diǎn)擊模塊上的模型加載位置檢查模型是否加載完成。
四個模型安裝位置
并且需要注意 load clip 模塊上,模型的種類是否選擇的是“stable_cascade”,并且加載的是剛剛下載的 clip 模型,你也可以給這個 clip 模型修改一下名稱,例如“cascade_clip_model”這樣就不會與其他的 clip 模型混淆。
確定模型種類的位置,千萬別混淆了
完成以上設(shè)置之后,就可以填寫提示詞,進(jìn)行圖像生成了。
4. Cascade 模型效果展示
文字相關(guān):在 6 個及以下字母的單詞生成的準(zhǔn)確率非常高,準(zhǔn)確率能達(dá)到 80%。但是超出 7 個字母后,想要直接生成拼寫無誤的單詞比較困難,準(zhǔn)確率在 20%左右。
文字效果如下:
電影海報(bào)效果如下:
新模型發(fā)布:Stable Cascade 在研究預(yù)覽中發(fā)布,采用三階段方法,提高了質(zhì)量、靈活性、微調(diào)能力和效率,同時進(jìn)一步降低了硬件要求。
技術(shù)細(xì)節(jié):Stable Cascade 包括三個階段(A、B、C),通過分層壓縮圖像,實(shí)現(xiàn)了使用高度壓縮的潛在空間達(dá)到顯著的輸出效果。
訓(xùn)練和微調(diào):提供了針對不同階段的訓(xùn)練和微調(diào)腳本,特別是 Stage C,可以單獨(dú)進(jìn)行訓(xùn)練或微調(diào),顯著降低成本。
參數(shù)規(guī)模與效率:Stage C 提供 10 億與 36 億參數(shù)兩種模型,Stage B 提供 7 億與 15 億參數(shù)兩種模型,強(qiáng)調(diào)了效率和質(zhì)量的平衡。
以上,既然看到這里了,如果這篇文章能夠幫助到你,或者覺得不錯,隨手點(diǎn)個贊、在看、轉(zhuǎn)發(fā)三連吧~如果想要第一時間收到推送,也可以給我個星標(biāo)~謝謝你看我的文章。
歡迎關(guān)注作者微信公眾號:「AI芝士計(jì)劃」
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。
發(fā)評論!每天贏獎品
點(diǎn)擊 登錄 后,在評論區(qū)留言,系統(tǒng)會隨機(jī)派送獎品
2012年成立至今,是國內(nèi)備受歡迎的設(shè)計(jì)師平臺,提供獎品贊助 聯(lián)系我們
品牌形象設(shè)計(jì)標(biāo)準(zhǔn)教程
已累計(jì)誕生 726 位幸運(yùn)星
發(fā)表評論 為下方 5 條評論點(diǎn)贊,解鎖好運(yùn)彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓