Midjourney 和 Stable Diffusion 都是目前流行的 AI 圖像生成工具,它們能夠根據(jù)文本描述生成高質(zhì)量的圖像。都是基于深度學習技術(shù)的文本到圖像生成模型,但它們各自基于不同的大模型。
但最近推出了一款比前兩者更強大,生成圖像更加逼真,在細節(jié)上更符合現(xiàn)實世界的模型,就是 FLUX!
Flux AI 是由 Black Forest Labs 推出的一款最新的文本生成圖像模型,這個團隊是由從 Stable Diffusion 離開的原班人馬,創(chuàng)立的全新用于 AI 繪圖的大模型。Flux AI 模型以其卓越的視覺質(zhì)量、精確的提示詞遵循、多樣化的風格和復(fù)雜場景生成能力而著稱。它包含三個版本:FLUX.1 [pro]、FLUX.1 [dev]和 FLUX.1 [schnell],分別針對不同的使用場景和需求。
FLUX.1 Pro
是專為商業(yè)用途設(shè)計的閉源模型,提供最先進的圖像生成性能。
FLUX.1 Dev
是一個開源的引導(dǎo)蒸餾模型,適用于非商業(yè)應(yīng)用。
FLUX.1 Schnell
是專為本地開發(fā)和個人使用設(shè)計的快速版本。
Flux AI 模型采用了創(chuàng)新的混合架構(gòu),結(jié)合了多模態(tài)處理能力和并行擴散機制的 Transformer 技術(shù),并擴展至高達 120 億個參數(shù)。這些模型在訓練生成模型的方法上采用了流匹配技術(shù),這種方法不僅通用性強,而且概念簡潔,特別適用于包括擴散過程在內(nèi)的各種情況。
官方網(wǎng)站: https://blackforestlabs.ai/
官網(wǎng)展示圖片樣例:
以下是 Flux、Midjourney 和 Stable Diffusion 模型的對比:
圖像質(zhì)量
Flux: 不需要其他插件的參與,本身就擅長生成高分辨率、細節(jié)豐富的圖像,特別是在復(fù)雜場景和人體解剖學方面表現(xiàn)出色。
Midjourney: 以其藝術(shù)風格和高質(zhì)量輸出聞名,尤其在藝術(shù)性和風格多樣性上有優(yōu)勢。
Stable Diffusion: 能夠生成逼真的圖像,適合需要真實感輸出的項目。
速度和效率
Flux: 提供快速的圖像生成,特別是 schnell 變體,適合需要快速原型制作和迭代設(shè)計的過程。大多數(shù)情況下不需要額外的下載風格模型,即可輸出各種風格的圖片。
Midjourney: 未明確提及速度,但通常商業(yè)模型可能會在云服務(wù)器上運行,可能存在排隊等候的情況。
Stable Diffusion: 生成速度較慢,但在圖像優(yōu)化過程中提供更多控制。
處理復(fù)雜場景
Flux: 在處理復(fù)雜構(gòu)圖方面表現(xiàn)出色,得益于其先進的架構(gòu)。特別是文字方面,flux 可以輸出帶文字的圖片,只要提示詞足夠的準確可以直接輸出設(shè)計海報級別的圖片。
Midjourney: 能夠處理復(fù)雜場景,但在某些情況下可能需要更多的迭代來達到理想效果。
Stable Diffusion: 在處理復(fù)雜場景方面可能存在一些限制。
人體解剖渲染
Flux: 在渲染人體解剖方面表現(xiàn)出色,尤其是手部細節(jié),更加的完整還原。
Midjourney: 未特別提及,但通常能夠生成具有藝術(shù)感的人物圖像,難以指定準確描繪。
Stable Diffusion: 可能在準確描繪人體特征方面遇到困難。需要額外的插件或者后期的處理才能勉強更正或基本達到效果
靈活性和集成
Flux: 提供多種變體,適合不同的使用場景和需求,包括開源和專業(yè)模型。
Midjourney: 作為商業(yè)工具,可能在定制化方面有一定的限制。
Stable Diffusion: 開源模型,社區(qū)驅(qū)動,提供了豐富的定制化和集成選項。
開源與商業(yè)模型
Flux: 提供開源模型,鼓勵社區(qū)參與和創(chuàng)新。
Midjourney: 為商業(yè)模型,提供專業(yè)的圖像生成服務(wù)。
Stable Diffusion: 開源模型,有活躍的社區(qū)支持和持續(xù)的改進。
特定應(yīng)用
FluxI: 適合需要高細節(jié)和準確表現(xiàn)復(fù)雜場景的項目。
Midjourney: 適合藝術(shù)創(chuàng)作和設(shè)計,尤其是在需要藝術(shù)風格和創(chuàng)意表現(xiàn)的領(lǐng)域。
Stable Diffusion: 適合對最終圖像控制至關(guān)重要的真實感輸出。
總結(jié)來說 flux:
- 畫面更細節(jié),效果更好
- 圖片文字支持更突出完整,輸出更準確
- 人物手部完整,符合現(xiàn)實,基本不會出錯
- 模型包含風格多,支持風格多樣,不依賴額外的模型協(xié)助補充
- 可忽略輸入負面提示詞,單靠正面提示詞即可準確輸出
通過以上對比,flux 之所以更強,是因為它的訓練參數(shù)是比前兩者更大,stable diffusion 3 是最高 8B 的訓練參數(shù),約 80 億,而 flux 1 的開始就是 12B 的訓練參數(shù),足足 120 億,多了好幾倍!單個模型的大小就有 23G 大小,可想而知,F(xiàn)lux 強大是很有實力的。
*注意:如果使用 GGUF 和 NF4,需額外安裝插件:
GGUF 節(jié)點: https://github.com/city96/ComfyUI-GGUF
NF4 節(jié)點: https://github.com/comfyanonymous/ComfyUI_bitsandbytes_NF4
1. 保證你的 comfyui 是最新的版本。(本文使用秋葉老師的啟動器)
點擊啟動器的版本,看到頂部的內(nèi)核、擴展,依次點擊右上角的一鍵更新按鈕,更新到最新的即可。因為 flux 是 8 月前發(fā)布的,保證自己的 comfyui 是更新到 8 月 1 日之后的最新版本哦。
2. 進入官網(wǎng)的漢堡主頁 https://huggingface.com/black-forest-labs/flux.1-dev
下載 ae.safetensors(即 vae)、flux1-dev.safetensors(即 unet)
3. 下載 clip 文件,進入 comfyui 的 github 主頁找到 flux: https://github.com/comfyanonymous/ComfyUI_examples/tree/master/flux
從這里進入,看到 clip_l.safetensors、t5xxl_fp16.safetensors、t5xxl_fp8_e4m3fn.safetensors 這三個文件下載。
4. 文件放置位置:
5. 其他資源包括 controlnet 及 lora,在 xlab-ai 主頁 https://huggingface.co/XLabs-AI
*注意如想使用 flux 模型的 controlnet、flux 模型的 iPadapter 等功能,,還需要在 comfyui 里面下載安裝 XLabs-Ai 插件。在 comfyui 管理器里打開節(jié)點管理,然后搜索該插件并安裝,然后重啟 comfyui 即可。
6. 系統(tǒng)內(nèi)存設(shè)置
注意采用的模型運行占內(nèi)存比較大時,建議打開系統(tǒng)的虛擬內(nèi)存:系統(tǒng)設(shè)置-高級-性能設(shè)置-高級-虛擬內(nèi)存-勾選自動管理。
官方給出了相關(guān)使用的工作流,只需要把官方 github 的案例圖片拖放到 comfyui 即可??磮D片命名對應(yīng)使用,值得我們學習。
官方案例工作流
如用 flux_dev_example 工作流為例子,將圖片拖放到 comfyui
得到下面的工作流:
把 flux_schnell_example 拖入則得到如下:
劃分結(jié)構(gòu):
flux_schnell_example 是最為簡單的,4 步驟即可出圖。
從簡單的入手,在 flux_schnell_example 工作流里面嘗試使用下面提示詞:
一個穿著校服的女孩,拿著粉筆在黑板上寫著開心文字,真實攝影,學校教室,半身構(gòu)圖,電影燈光,細節(jié)豐富,日式低飽和度
A girl wearing a school uniform, holding chalk to write happy words on the blackboard, real photography, school classroom, half body composition, movie lighting, rich details, Japanese low saturation
得到的出圖:
- 黑板上的字準確體驗
- 人物的手結(jié)構(gòu)正常
- 質(zhì)感效果按提示詞的真實風格符合
- 出圖效率高,無等待感,跟提示詞吻合
接著我們在模型之間插入一個 lora 加載器,并且在網(wǎng)上下載了一個黑神話悟空的 lora 模型,加載進去(lora 來自 liblib.art 平臺作者:AI 游戲課堂熊熊)
模型先使用 fp8 schnell,使用 lora 作者提供的描述詞,然后啟動隊列,看到作者電腦 32G 內(nèi)存,可以去到 85%到 98%上,顯卡是英偉達 2080。
輸入提示詞:
悟空,在繪畫室內(nèi),繪畫,素描,畫筆,寫字,努力工作,(大文字“不想工作”)
Wukong,in the painting studio,painting,sketching,using a paintbrush, writing,and working hard (big text says' don't want to work ')
得到圖像:
簡單的描述,無需負面提示詞,添加 lora 后人物手部,文字等都很好。
總的來說 flux 除了大模型需要強配置的電腦,較小的模型其實效果也錯不了多少,對于普通的自媒體應(yīng)用、方案創(chuàng)意等足夠使用了。
另外除了簡單的添加 lora 等,熟悉 comfyui 的話,添加放大增加細節(jié)的節(jié)點,甚至使用 controlnet 等高級應(yīng)用都可以產(chǎn)生更多更好的效果。如有更好的提示詞或者工作流,歡迎各位在評論區(qū)留言哦~
歡迎關(guān)注作者微信公眾號:「ASAK」
復(fù)制本文鏈接 文章為作者獨立觀點不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。
發(fā)評論!每天贏獎品
點擊 登錄 后,在評論區(qū)留言,系統(tǒng)會隨機派送獎品
2012年成立至今,是國內(nèi)備受歡迎的設(shè)計師平臺,提供獎品贊助 聯(lián)系我們
品牌形象設(shè)計標準教程
已累計誕生 726 位幸運星
發(fā)表評論 為下方 4 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓