DeepSeek 這次直接把桌子掀了!
繼把大模型價(jià)格打到地板價(jià)后,他們最新開(kāi)源的多模態(tài)模型更狠——不僅看得懂《清明上河圖》的細(xì)節(jié),還能照著你的描述生圖。
這個(gè)多模態(tài)模型就是他們悄悄開(kāi)源的“雙腦”視覺(jué)模型 Janus-Pro,被稱為“左腦能當(dāng)福爾摩斯解密圖片,右腦能當(dāng)畫(huà)家揮毫潑墨?!钡哪P?。
目前該模型未上線 Deepseek 官網(wǎng),但我們可以通過(guò) ComfyUI 來(lái)使用它。并且,還能結(jié)合 Flux 工作流使用!
接下來(lái),我將通過(guò)這篇文章來(lái)教你如何在 ComfyUI 中使用 Janus-Pro 模型。
基礎(chǔ)回顧:
一句話總結(jié),Janus-Pro 是 DeepSeek 公司開(kāi)發(fā)的一款“能看懂圖片又能畫(huà)圖”的多模態(tài)模型。
論文地址: https://www.arxiv.org/pdf/2501.17811
GitHub 項(xiàng)目地址: https://github.com/deepseek-ai/Janus?tab=readme-ov-file#janus
它就像有兩個(gè)不同的大腦:
左腦(理解模式):比如上傳圖片,發(fā)送指令讓模型識(shí)別照片中的物體。
右腦(生成模式):可根據(jù)文字描述生成新圖片,也就是我們熟知的文生圖。
接下來(lái),就讓我們看看如何在 ComfyUI 中部署 Janus-Pro,以及測(cè)試它在 ComfyUI 工作流中生圖的可行性。
Janus-Pro 節(jié)點(diǎn)組作者開(kāi)源的項(xiàng)目地址: https://github.com/deepseek-ai/Janus?tab=readme-ov-file#janus
1. 安裝 Janus-Pro
首先,我們需要在 ComfyUI 中的 Manager 節(jié)點(diǎn)管理器中安裝 Janus-Pro。搜索“Janus-Pro”,點(diǎn)擊“Install”安裝。
然后,在 Hugging Face 上下載 Janus-Pro 模型。共兩個(gè)版本模型:
Janus-Pro-1B(小模型):10 億參數(shù),擅長(zhǎng)快速生成簡(jiǎn)單圖片/文字回答,最低顯存要求 8GB。
模型下載地址: https://github.com/deepseek-ai/Janus?tab=readme-ov-file#janus
Janus-Pro-7B(大模型):70 億參數(shù),擅長(zhǎng)高精度復(fù)雜圖像生成/推理,最低顯存要求 24GB。
模型下載地址: https://huggingface.co/deepseek-ai/Janus-Pro-7B/tree/main
切記,需要在“Files and Versions”中下載列表中的所有文件。
模型安裝會(huì)比較麻煩一些,這里需要認(rèn)真看。
第一步,打開(kāi) ComfyUI 根目錄,找到 Models 文件夾,新建文件夾并命名“Janus-pro”。
第二步,進(jìn)入“Janus-pro”文件中,再次新建文件夾,并按照你需要安裝的模型版本命名文件夾。
第三步,將 Hugging Face 上下載的文件放在對(duì)應(yīng)的文件夾中。
2. 搭建 Janus-Pro 工作流
安裝節(jié)點(diǎn)組和模型后,我們就可以啟動(dòng) ComfyUI 搭建 Janus-Pro 工作流了。
可以在節(jié)點(diǎn)庫(kù)中搜索“Janus”找到節(jié)點(diǎn)組,共 3 個(gè)節(jié)點(diǎn),分別是模型加載、圖像理解和圖像生成。
先搭建圖像理解工作流。連接方式也比較簡(jiǎn)單,除了 Janus 節(jié)點(diǎn)組中的模型加載和圖像理解節(jié)點(diǎn)外,還需調(diào)用“圖像加載”和“展示文本”節(jié)點(diǎn),如圖所示:
它可以識(shí)別圖片中的任何元素,如圖中的人像攝影圖。
操作方式為,選擇“Janus-Pro-7B”模型,上傳圖像,并在圖像理解節(jié)點(diǎn)中輸入提示詞:“請(qǐng)?jiān)敿?xì)描述這張圖片。”
運(yùn)行后,就可以在展示文本中看到回復(fù)結(jié)果:
“這張圖片展示了一位年輕女性,她站在戶外,背景是模糊的綠色植物和陽(yáng)光。她的長(zhǎng)發(fā)自然地散落在肩上,頭發(fā)顏色為深棕色或黑色。她穿著一件帶有花卉圖案的露肩上衣,上衣的顏色主要是白色,并點(diǎn)綴著紅色和綠色的花朵。她的表情溫柔,目光直視鏡頭,嘴唇涂有鮮艷的紅色口紅。整體畫(huà)面給人一種清新自然的感覺(jué),光線柔和,營(yíng)造出一種寧?kù)o的氛圍?!?/p>
上傳一張清明上河圖,Janus 也能詳細(xì)的描述出圖中內(nèi)容。
接著,我們測(cè)試下圖像生成工作流。
調(diào)用圖像生成節(jié)點(diǎn),連接模型加載節(jié)點(diǎn)和預(yù)覽/保存圖像節(jié)點(diǎn)。這個(gè)工作流的功能類似于文生圖,只不過(guò)大模型是 Janus-Pro-1B/7B。
可以測(cè)試下,使用 Janus-Pro-7B,輸入“The girl in the red shirt(穿著紅色襯衫的女孩)?!?/p>
懷疑是提示詞少了,于是再寫(xiě)了一組詳細(xì)的 Prompt:
“masterpiece, best quality, ultra-realistic photography style, cinematic lighting, A 20-year-old woman standing on a city rooftop at sunset, black silk crop top, black leather leggings, long flowing raven hair with subtle violet highlights, facial highlights accentuating high cheekbones, dramatic sky background with swirling dark clouds pierced by golden sunset rays, soft pastel tones blending into muted indigo shadows, high contrast chiaroscuro, natural skin texture with dewy complexion, dim ambient light casting delicate rim lighting, low-angle wide shot from 35mm lens, shallow depth of field blurring distant skyscrapers, neo-noir aesthetic with melancholic yet empowering atmosphere.”
說(shuō)實(shí)話,Janus-Pro-7B 在文生圖方面差遠(yuǎn)了,這是如何擊敗 StableDiffusion......
一句話總結(jié)(借助下群友的回復(fù)):“生圖一般,提示詞反推可以。”
這就是 Deepseek 團(tuán)隊(duì)發(fā)布的 Janus 多模態(tài)模型,從上面的案例演示你或許也能看出,該模型也只是在圖像識(shí)別方面會(huì)比較優(yōu)秀,而這個(gè)模型的能力,早在其他大語(yǔ)言模型上實(shí)現(xiàn),比如 Kimi 的視覺(jué)思考模型(現(xiàn)已經(jīng)整合)。
而在未來(lái),Deepseek 肯定會(huì)在官網(wǎng)上線這一模型,壓力又給到了國(guó)內(nèi)的 AI 六小龍們......
那既然文生圖效果不行,在 ComfyUI 中,使用 Janus-Pro 模型只剩下圖像理解工作流了。
可以這樣做,讓 Janus 模型生成 AI 繪畫(huà)提示詞,而生圖模型用 Flux 模型即可優(yōu)劣互補(bǔ)。
先加載一套 Flux 文生圖工作流,注意需要安裝 Flux 對(duì)應(yīng)的節(jié)點(diǎn)模型。
在文生圖工作流上,可以添加一個(gè)“Lora 堆”節(jié)點(diǎn),方便后續(xù) lora 模型的調(diào)用。
搭建 Janus+Flux 工作流的方法有兩種:
1. Janus+Flux 工作流合并
第一種,Janus 圖像理解工作流與 Flux 文生圖工作流合并。
具體操作:將“Clip 文本編碼器”的提示詞框轉(zhuǎn)換為輸入連接點(diǎn),并與圖像理解工作流的“展示文本”連接。
上傳一張圖片(如圖中的哪吒),在 Janus 圖像理解工作流中輸入指令:
“根據(jù)圖片內(nèi)容幫助我生成 Stablediffusion 所需要的 Prompt。注意,你只需要輸出 Prompt,并且需要是英文?!?/p>
回復(fù)為:
Sure, here is the Prompt for Stablediffusion:
"A young boy with a mischievous grin, wearing a red and gold outfit, is surrounded by flames. He holds a staff with a fiery orb at the end, and his eyes are wide with excitement. The background is a swirling mix of dark and fiery colors, giving a sense of dynamic movement and energy."
譯文為:
“當(dāng)然,這是穩(wěn)定擴(kuò)散的提示:
一個(gè)小男孩帶著頑皮的笑容,穿著紅色和金色的衣服,被火焰包圍。他手里拿著一根末端有一個(gè)火球的棍子,眼睛興奮得睜得大大的。背景是深色和火紅色的漩渦混合,給人一種動(dòng)態(tài)運(yùn)動(dòng)和能量的感覺(jué)。”
雖然在 StableDiffusion 生圖提示詞中,“Sure, here is the Prompt for Stablediffusion:”是一句多余的文本,但對(duì)圖像生成的效果影響不大。
在 lora 堆中設(shè)置兩個(gè)哪吒人物的 lora 模型,如圖所示:
那這樣,我們就可以用這套工作流一鍵復(fù)刻上傳的圖像(如圖中的哪吒形象)。
換一張敖光的圖片測(cè)試,選擇這兩個(gè)敖光的 Lora 模型。
Janus 生成的提示詞為:
“Sure, here is the Stablediffusion Prompt for the image:
Prompt: "A fantasy character with white hair and pointed ears, wearing intricate silver armor with dragon motifs, holding a glowing blue sword, surrounded by a majestic white dragon with red eyes and golden accents. The background features a mystical, cloudy atmosphere with lightning effects."
這套工作流的優(yōu)點(diǎn)是快,可以形成通過(guò)上傳圖片一鍵復(fù)刻生成。
缺點(diǎn)是自由度比較低,無(wú)法修改提示詞,而用 Janus 模型+Flux 模型同時(shí)運(yùn)行,會(huì)對(duì)電腦的顯存要求比較高。
2. Janus+Flux 工作流拆分
那么,我們可以用第二種方式,將 Janus 和 Flux 拆分,形成兩套工作流。
Janus 圖像理解工作流,負(fù)責(zé)提示詞生成,然后我們手動(dòng)篩選優(yōu)化提示詞。
在 Janus 工作流中輸入提示詞:“請(qǐng)?jiān)敿?xì)描述圖片內(nèi)容,然后為我生成 StableDiffusion 所需要的提示詞?!?/p>
Flux 文生圖工作流,負(fù)責(zé)圖像生成,手動(dòng)輸入 Janus 模型生成的提示詞。
而為了更加方便我們用提示詞創(chuàng)作,可以在 Flux 工作流中增加一個(gè)翻譯節(jié)點(diǎn)。
這樣,我們就可以直接在 ComfyUI 中,自由的輸入提示詞了。
并且 Janus 工作流可以替代以往我們?cè)?Kimi、Claude 等 AI 聊天軟件中反推提示詞的步驟。
將上述 Janus 生成的提示詞篩選出來(lái)(這種提示詞方便添加權(quán)重):
“長(zhǎng)發(fā)的女性,藍(lán)色頭發(fā),頭戴尖角發(fā)飾,鱗片狀的服裝,手臂和身體上的鱗片設(shè)計(jì),巨大的龍,藍(lán)色和紫色的鱗片,紅色的眼睛,神秘的幻想背景,模糊的樹(shù)木,天空,神秘,幻想?!?/p>
或者直接用 Janus 對(duì)圖像的描述:
“一位身穿華麗服飾的女性角色,她擁有長(zhǎng)長(zhǎng)的藍(lán)色頭發(fā),頭戴裝飾有尖角的發(fā)飾。她的服裝以藍(lán)色和紫色為主,帶有鱗片狀的紋理,與她手臂和身體上的鱗片設(shè)計(jì)相呼應(yīng)。她正與一條巨大的龍互動(dòng),龍的鱗片同樣是藍(lán)色和紫色的,眼睛發(fā)出紅色的光芒。背景中可以看到一些模糊的樹(shù)木和天空,整體氛圍充滿了神秘和幻想色彩?!?/p>
然后將中文提示詞直接放入翻譯節(jié)點(diǎn)中,切換對(duì)應(yīng)的 lora 模型。
注意??!兩套工作流是單獨(dú)運(yùn)行處理的,所以在運(yùn)行其中一個(gè)工作流時(shí),需要將另一個(gè)工作流隱藏(全選工作流,按 Ctrl+B)
最后,我們依靠 Janus 所反推的提示詞生成了這張效果圖。
但你會(huì)發(fā)現(xiàn),Janus 只是將畫(huà)面的人物動(dòng)作描述的較為詳細(xì),對(duì)風(fēng)格,細(xì)節(jié)的描述則很少。
所以,如果直接使用 Janus 反推的提示詞,生成的結(jié)果較為一般,這時(shí),還是需要我們手動(dòng)補(bǔ)充,或者是借助 ComfyUI 中其他提示詞節(jié)點(diǎn)。
經(jīng)過(guò)對(duì) Janus 模型的測(cè)試,可以得出結(jié)論:“Janus 在 comfyUI 中的圖像應(yīng)用并不理想,而且所消耗的電腦資源比較大,雖然圖像理解的能力還不錯(cuò),但并未與其他 AI 聊天應(yīng)用有比較明顯的差距。”
所以,如果在 ComfyUI 中需要使用圖像反推節(jié)點(diǎn),我更愿意推薦“Florence 2”或“WD-14 反推提示詞”等節(jié)點(diǎn)組。
但是,認(rèn)真思考下,如果是 Janus 模型與 DeepseekR1 模型相互結(jié)合呢?
Janus 模型識(shí)別圖像內(nèi)容,R1 模型在思考推理前先聯(lián)網(wǎng)檢索網(wǎng)上優(yōu)質(zhì)的提示詞,最后按照用戶下達(dá)的指令,寫(xiě)出提示詞而 Janus 模型部署在 Deepseek 中也只是時(shí)間問(wèn)題。
這意味著,寫(xiě)圖像提示詞的難度還會(huì)降低,甚至是不需要你動(dòng)腦子想,DeepseekR1 直接給你寫(xiě)出 N 種提示詞方案。而你,只需要發(fā)送圖片給它,用老板的語(yǔ)氣給他下達(dá)指令......
如果你想要學(xué)習(xí)更多 AI 繪畫(huà)技巧,可以加入我主理的《優(yōu)設(shè) AI 俱樂(lè)部》,俱樂(lè)部?jī)?nèi)沉淀有 2000+優(yōu)質(zhì) AI 學(xué)習(xí)資料,AI 提示詞、AI 工具庫(kù)、AI 商業(yè)設(shè)計(jì)案例、研究報(bào)告......
可以點(diǎn)擊鏈接: https://wx.zsxq.com/group/15288828142182
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。
發(fā)評(píng)論!每天贏獎(jiǎng)品
點(diǎn)擊 登錄 后,在評(píng)論區(qū)留言,系統(tǒng)會(huì)隨機(jī)派送獎(jiǎng)品
2012年成立至今,是國(guó)內(nèi)備受歡迎的設(shè)計(jì)師平臺(tái),提供獎(jiǎng)品贊助 聯(lián)系我們
品牌形象設(shè)計(jì)標(biāo)準(zhǔn)教程
已累計(jì)誕生 726 位幸運(yùn)星
發(fā)表評(píng)論 為下方 3 條評(píng)論點(diǎn)贊,解鎖好運(yùn)彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評(píng) ↓