文件名 如何下載使用 文件大小 提取碼 下載來源
Stable Cascade 模型8888 點(diǎn)此復(fù)制 登錄下載

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

在 2024 年 2 月 12 日,Stability.Ai 公司發(fā)布了新模型 Stable Cascade

上線了一段時間的新模型,小伙伴們體驗(yàn)感如何呢?這篇文章和你深度聊聊~

往期介紹:

一、前言

Stable Cascade 模型最大的優(yōu)點(diǎn)是

  1. 是能生成帶有文字的圖片,文字出錯率相比以前模型少很多;
  2. 其次是硬件要求降低,甚至與 sd1.5 相比,該架構(gòu)比之前版本實(shí)現(xiàn)了 16 倍的成本降低;
  3. 最后一大亮點(diǎn)是模型更加理解提示詞語義。

這篇文章帶大家詳細(xì)了解 Stable Cascade 模型。最后我整理打包了此模型,「Stable cascade 模型+安裝方法+工作流」整套放在了文章最后,伙伴們自行下載~

二、效果對比(Cascade 模型與 SDXL 模型)

左邊使用 Cascade 模型出的效果圖片

右邊使用 SDXL 模型出圖效果:

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

提示詞:text“stable”,Made from green shrub leaves,

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

提示詞:text“stable”,The text is made of colorful energy.

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

提示詞:A cute cat

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

提示詞:a cat eating a piece of cheese

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

提示詞:A high-definition full body photo of a beautiful Asian girl in a summer park,full-size photograph,full-size photograph

通過以上的圖片,小伙伴更喜歡哪種模型出的效果呢~

根據(jù)官方給到的評估結(jié)論,在幾乎所有比較中,Stable Cascade 在理解提示詞語義方面和美觀質(zhì)量方面都表現(xiàn)最好。

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

Stable Cascade 模型和其他模型的數(shù)據(jù)對比

三、Cascade 模型是什么?

Cascade 模型與之前的 sd 模型相比,主要區(qū)別是可以在更小的潛空間中工作。

潛空間可以簡單理解為 ai 計(jì)算生成圖片的區(qū)域,潛在空間越小,推理速度就越快,訓(xùn)練成本也就越低。

之前的 sd 模型如果想要生成一張 1024*1024 的圖片,在潛空間的編碼為 128*128,使用的壓縮因子為 8,可以簡單的理解為 1024*1024 的圖片除以 8(壓縮因子)等于在潛空間的編碼大小 128*128。

而 Stable Cascade 的壓縮系數(shù)為 42,這意味著可以將 1024x1024 圖像,在潛空間的編碼為 24x24,這樣就可以使用更小的潛空間尺寸,并且實(shí)現(xiàn)清晰的圖像輸出。甚至與 sd1.5 相比,該架構(gòu)比之前版本實(shí)現(xiàn)了 16 倍的成本降低。

因此,這種模型非常適合快速的生成高質(zhì)量圖片。并且當(dāng)前已知的擴(kuò)展(如微調(diào)、LoRA、ControlNet、IP 適配器、LCM 等)也可以通過此方法實(shí)現(xiàn)。

四、Cascade 的文件結(jié)構(gòu)

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

Stable Cascade 模型邏輯流程圖

1. Stable Cascade 由三個模型組成

Stage A、Stage B 和 Stage C,代表級聯(lián)生成圖像。

「級聯(lián)」是指多個系統(tǒng)、設(shè)備或組件按照一定的順序依次連接起來,形成一個整體,其中前一個系統(tǒng)、設(shè)備或組件的輸出作為后一個的輸入。因此得名“Stable Cascade”。

2. Stable Cascade 如何級聯(lián)運(yùn)行

A 階段和 B 階段用于壓縮圖像,類似于 stable diffusion 中 VAE 的工作。然而,通過這種設(shè)置,可以實(shí)現(xiàn)更高的圖像壓縮。此外,階段 C 負(fù)責(zé)在給定文本提示的情況下生成小的 24 x 24 潛伏。

比如輸入提示詞“鱷梨形狀的扶手椅”,就會進(jìn)入到第一步潛在的生成器,并且使用 stage C 模型生成較小的潛在圖像,生成完成后,會進(jìn)入到 stage B 和 stage A,對生成的潛在圖像內(nèi)容還原到像素空間。

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

Stable Cascade 模型輸入提示詞后的生成流程

五、使用 Cascade 模型的流程和工作流搭建

1. 下載模型

①模型下載分為兩個部分:Cascade 模型+clip 模型;

②cascade 模型又分為 stageA,stageB,stageC,官方對 stage C 和 stage B 分別提供了兩個版本,每個模型只需要下載其中一個即可;

③其中 stage C 提供 10 億和 36 億參數(shù)版本,官方強(qiáng)烈建議使用 36 億版本,生成的圖像會有更加有細(xì)節(jié)。

Stage B 的兩個版本分別達(dá)到 7 億和 15 億個參數(shù)。15 億擅長重建微小而精細(xì)的細(xì)節(jié)。

④最后,Stage A 包含 2000 萬個參數(shù),只有一個版本直接下載默認(rèn)版本的即可。

如果你的電腦性能足夠,當(dāng)前建議直接下載較大文件體積的模型,能夠獲得更好的結(jié)果。

clip 模型在 text_encoder 文件夾,只有一個版本,下載 model.safetensors 模型即可。

這些模型我也打包好了,放在文章的最后,可以直接下載使用。

2. 安裝模型

將 stage C 和 stage B 這兩個模型放置到 ComfyUI 根目錄\ComfyUI\models\unet 文件夾中。

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

stage C 和 stage B 這兩個模型放置的文件位置

stage A 模型放置到 ComfyUI 根目\ComfyUI\models\vae 文件夾中

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

stage A 模型放置的文件位置

最后將 clip 模型放置到 ComfyUI 根目錄\ComfyUI\models\clip 文件夾中,這樣使用 cascade 的模型安裝也完成了。

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

clip 模型放置的位置

3. 更新 Comfyui 版本

將 comfyui 更新到最新版本即可,官方將需要的模塊已經(jīng)同步進(jìn)模型包了,

comfyui 的更新方法,打開秋葉的啟動器,具體怎么將秋葉啟動器安裝到官方的 comfyui 包中,可以參考這條視頻的方法。

一分鐘教你使用秋葉啟動器對 Comfyui 進(jìn)行升降版本,版本管理:

當(dāng)視頻在手機(jī)上無法加載,可前往PC查看。

點(diǎn)擊“版本管理”-右上角的“一鍵更新”按鈕,即可將 comfyui 更新到最新版本。

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

秋葉啟動器安裝到官方的 comfyui 包,進(jìn)行一鍵更新

4. 工作流搭建

拿到官方更新的 cascade 工作流之后,工作流應(yīng)該會默認(rèn)安裝好這四個模型,你也可以點(diǎn)擊模塊上的模型加載位置檢查模型是否加載完成。

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

四個模型安裝位置

并且需要注意 load clip 模塊上,模型的種類是否選擇的是“stable_cascade”,并且加載的是剛剛下載的 clip 模型,你也可以給這個 clip 模型修改一下名稱,例如“cascade_clip_model”這樣就不會與其他的 clip 模型混淆。

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

確定模型種類的位置,千萬別混淆了

完成以上設(shè)置之后,就可以填寫提示詞,進(jìn)行圖像生成了。

4. Cascade 模型效果展示

文字相關(guān):在 6 個及以下字母的單詞生成的準(zhǔn)確率非常高,準(zhǔn)確率能達(dá)到 80%。但是超出 7 個字母后,想要直接生成拼寫無誤的單詞比較困難,準(zhǔn)確率在 20%左右。

文字效果如下:

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

電影海報(bào)效果如下:

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

最后總結(jié)

新模型發(fā)布:Stable Cascade 在研究預(yù)覽中發(fā)布,采用三階段方法,提高了質(zhì)量、靈活性、微調(diào)能力和效率,同時進(jìn)一步降低了硬件要求。

技術(shù)細(xì)節(jié):Stable Cascade 包括三個階段(A、B、C),通過分層壓縮圖像,實(shí)現(xiàn)了使用高度壓縮的潛在空間達(dá)到顯著的輸出效果。

訓(xùn)練和微調(diào):提供了針對不同階段的訓(xùn)練和微調(diào)腳本,特別是 Stage C,可以單獨(dú)進(jìn)行訓(xùn)練或微調(diào),顯著降低成本。

參數(shù)規(guī)模與效率:Stage C 提供 10 億與 36 億參數(shù)兩種模型,Stage B 提供 7 億與 15 億參數(shù)兩種模型,強(qiáng)調(diào)了效率和質(zhì)量的平衡。

結(jié)語

以上,既然看到這里了,如果這篇文章能夠幫助到你,或者覺得不錯,隨手點(diǎn)個贊、在看、轉(zhuǎn)發(fā)三連吧~如果想要第一時間收到推送,也可以給我個星標(biāo)~謝謝你看我的文章。

歡迎關(guān)注作者微信公眾號:「AI芝士計(jì)劃」

3000字干貨!五個章節(jié)深入掌握 Stable Cascade(附模型下載)

文件名 如何下載使用 文件大小 提取碼 下載來源
Stable Cascade 模型8888 點(diǎn)此復(fù)制 登錄下載
收藏 26
點(diǎn)贊 51

復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。