熱評(píng) 喵咪??喵咪??喵咪??喵咪

教科書般的AI 商業(yè)化流程。雖然有了結(jié)果 ,但是感覺2方人員都巨累啊,甲方的插畫師純粹在質(zhì)檢,乙方一直在修修補(bǔ)補(bǔ)~!

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

我接了個(gè)活,為一家童書電商公司生產(chǎn)教輔插圖。本文記錄了我如何分析可行性,如何做前期準(zhǔn)備,如何干完第一單,如何決定金盆洗手的整個(gè)過程。

其中也會(huì)穿插大量 AI 技巧和技術(shù)實(shí)踐,講原理和思路為主,具體操作不會(huì)寫得那么詳細(xì)。別慌,如果你對(duì)那些神秘的 AI 術(shù)語不感興趣,我保證你也能看懂。我會(huì)把技術(shù)細(xì)節(jié)放在特定模塊里,故事部分盡量避免術(shù)語。你可以直接快進(jìn)跳過,不影響你看故事。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

鑒于為客戶保密的義務(wù),我無法直接展示成品,但可以用變通的方法讓你看到類似的效果。所以你在本文中看到的圖片,全部都是我事后生成。

現(xiàn)在項(xiàng)目已經(jīng)完結(jié),在故事開始前,先分享一個(gè)結(jié)論:AI 不能讓普通人代替插畫師,但是能讓掌握 Photoshop 的人代替插畫師。

更多AI實(shí)戰(zhàn)方法:

一、機(jī)會(huì)

2025 年 4 月,朋友給我推薦了個(gè)活,AI 生成兒童插畫。量非常大,一個(gè)月能有一萬張左右。按朋友給的報(bào)價(jià),只要我產(chǎn)能足夠,哪怕只是接下其中 2000 張,利潤(rùn)也會(huì)非??捎^。

打動(dòng)我的關(guān)鍵點(diǎn)是:量大。

因?yàn)槲易畲蟮谋臼?,是擅長(zhǎng)從亂麻般的復(fù)雜流程中理出頭緒,并做成自動(dòng)化流水線。所有環(huán)節(jié)各個(gè)擊破,用 Python、提示詞工程、Excel、多維表等技術(shù)和工具串起來,實(shí)現(xiàn)以一敵十的效果。

這個(gè)本事簡(jiǎn)單說就是:工業(yè)化。

當(dāng)然,AI 生圖我本身也有豐富經(jīng)驗(yàn),是能接這個(gè)活的前提。

從賺錢角度來說,這似乎是個(gè)不錯(cuò)的生意。雖然現(xiàn)在 AI 生圖工具遍地是,人人都能生成像模像樣的兒童插畫,但生成一兩張和上萬張可完全是兩碼事。上萬張手動(dòng)生成,耗費(fèi)的精力并不亞于一份全職工作。

我的算盤是,把生成插圖的一整套流程都自動(dòng)化,耗費(fèi)極少時(shí)間,掛機(jī)大批量出圖。我的主要精力只用來挑選圖片,以及與客戶溝通。對(duì),因?yàn)?AI 生成的圖總免不了有問題,要碰運(yùn)氣(行話叫抽卡),所以我會(huì)讓程序?yàn)槊糠瀹嬌啥鄰垐D片,我來從中挑選。如果一張可用的都沒有,就標(biāo)記一下,進(jìn)入重試流程,再來一輪,直到找到可用的。

至于細(xì)節(jié)的修改,比如人物多個(gè)手指、少個(gè)手指,雖然我用 AI 工具和 PS 也能修,但親自動(dòng)手產(chǎn)量上不去。我只想賺自動(dòng)化的錢,手工活的錢我打算二次外包給插畫師賺。我朋友正好有這方面門路,能幫我找到插畫師。初步談下來,插畫師有合作意向,我給的價(jià)格也在對(duì)方接受范圍內(nèi)。

接單的要素集齊。這樣一來,我就有了一根高效的杠桿,用自己極少的時(shí)間,產(chǎn)生超越自己時(shí)薪的利潤(rùn)。那幾天心情愉快,在廚房洗奶瓶時(shí)都會(huì)不自覺唱幾句。

1. 技術(shù)分享

技術(shù)部分開始。

① 選擇模型

在這個(gè)時(shí)間點(diǎn),AI 生圖的現(xiàn)狀是:最頂流的模型,國(guó)外的是 gpt 4o,國(guó)內(nèi)的是即夢(mèng)(豆包)。開源模型方面,效果最好且生態(tài)完善的是 Flux dev。

由于出圖量大,不能只看效果,還得顧及成本。gpt 4o 成本過高,即夢(mèng)沒有官方 API??蛻魧?duì)圖片的風(fēng)格又有明確要求(真的非常具體),可行的方案只能是開源模型。

在開源模型中,SDXL 和 Flux dev 是兩個(gè)主流方案。SDXL 便宜且快速,但我知道它的局限。童書插圖有大量多人出現(xiàn)的場(chǎng)景,當(dāng)一個(gè)穿著藍(lán)色條紋短袖 T 恤的小男孩,和穿著卡其色開衫的媽媽同時(shí)出現(xiàn)在畫面中,SDXL 經(jīng)常會(huì)把兩人衣服都畫成藍(lán)色或卡其色,廢稿率奇高。用 Flux dev 就要穩(wěn)定得多。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

拿我在其他項(xiàng)目中的對(duì)比結(jié)果舉例。上圖是 Flux dev 畫的,完美地遵循了我對(duì)人物外貌的要求:女主青綠色衣服、銀灰色長(zhǎng)發(fā);男主紅色衣服,紅色頭發(fā)。甚至人物的眼珠顏色都遵照了指令。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

然后 SDXL 生成的就是這么個(gè)玩意,一團(tuán)混亂。

這是兩者的 CLIP 模型能力差異所導(dǎo)致。CLIP 模型是理解和處理圖文對(duì)應(yīng)關(guān)系的模型。擴(kuò)散模型不懂人話,CLIP 懂。CLIP 把你輸入的提示詞轉(zhuǎn)化成擴(kuò)散模型能理解的“語言”,相當(dāng)于是個(gè)翻譯。如果翻譯自身語言水平差,當(dāng)然容易雞同鴨講。

于是 Flux dev 成了唯一的選擇。

② 選擇模型調(diào)用方式

另一方面,生圖過程如果想要自動(dòng)化,必須通過程序來調(diào)用。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

目前 Flux 生圖有 3 種方式:WebUI、ComfyUI、直接編程調(diào)用。我最熟悉的是 ComfyUI,它提供 API,可以把一整個(gè)工作流傳進(jìn)去。只要模型和其他資源都準(zhǔn)備到位,這邊程序輸入一個(gè)工作流,運(yùn)行完那邊輸出一張圖片。把這個(gè)過程封裝成工具函數(shù),放在一個(gè)更大的程序中循環(huán)調(diào)用,就可以實(shí)現(xiàn)大批圖片的連續(xù)生成。

③ 選擇運(yùn)行環(huán)境

還有個(gè)問題是,AI 生圖耗費(fèi)大量運(yùn)算資源,這些運(yùn)算資源從哪來?我的個(gè)人電腦是一臺(tái) 7000 多的 i7 處理器 Windows 筆記本,顯卡很爛,運(yùn)行 SDXL 都要 10 分鐘一張圖,顯然指望不上了。換電腦是個(gè)法子,但考慮到合作還沒穩(wěn)定開展,且要根據(jù)需求量靈活擴(kuò)展運(yùn)算資源,云端機(jī)器是更合適的方案。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

最硬核的辦法是去云服務(wù)商買機(jī)器、買存儲(chǔ),不過我這種半吊子開發(fā)者折騰起來也夠嗆。最終鎖定了兩個(gè)更簡(jiǎn)單友好的平臺(tái):Replicate 和 Runcomfy,只需要對(duì)接 API,不用費(fèi)勁折騰機(jī)器配置。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

Replicate 上提供 Flex dev Lora 模型。輸入提示詞和一些參數(shù),運(yùn)行完,一張圖就出現(xiàn)在我電腦上,非常簡(jiǎn)單。其中 Lora 模型我需要自己訓(xùn)練,然后放到 Huggingface 或 Civitai 上,通過鏈接來調(diào)用。這個(gè)模型是按張計(jì)費(fèi)的,一張圖人民幣 2 毛左右。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

但是 Replicate 有一點(diǎn)滿足不了我。它無法使用任意自定義節(jié)點(diǎn),畢竟這個(gè)平臺(tái)提供的不只是生圖模型,文本、語音……什么模型都有,它不會(huì)專為ComfyUI提供這么細(xì)致的支持。而我打算使用的圖像放大技術(shù),需要用到一個(gè)叫TTP_Image_Tile_Batch的節(jié)點(diǎn),Replicate并不支持。

Runcomfy 則更加專注于 ComfyUI。它有云端機(jī)器,而且?guī)в写鎯?chǔ),意味著我可以把要用的模型、自定義節(jié)點(diǎn)傳上去,這個(gè)平臺(tái)理論上可以運(yùn)行任意生圖模型和自定義節(jié)點(diǎn)。Runcomfy 按機(jī)器運(yùn)行時(shí)間計(jì)費(fèi),精確到分鐘。每次要生圖,無論是打開在線 ComfyUI 界面手動(dòng)操作,還是通過 API,都要先啟動(dòng)一臺(tái)機(jī)器。從機(jī)器啟動(dòng)成功那一刻開始計(jì)費(fèi),用完關(guān)掉機(jī)器停止計(jì)費(fèi)。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

關(guān)鍵是,算下來它一張圖還比 Replicate 便宜!

技術(shù)部分結(jié)束。

二、準(zhǔn)備

正式接單前,經(jīng)過了兩輪試稿。

1. 試稿磨合,客戶認(rèn)可

第一輪試稿,根據(jù)客戶給出的風(fēng)格參考圖,分別用水彩和扁平兩種風(fēng)格畫出:公園里,男孩伸手想要摘花,媽媽連忙勸阻。

最終客戶滿意的效果類似這樣,左水彩,右扁平。肢體問題請(qǐng)忽略(這是我事后生成),主要看風(fēng)格:

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

挑戰(zhàn) 1:滿足風(fēng)格要求

剛開始我偷了點(diǎn)懶,認(rèn)為客戶對(duì)風(fēng)格的要求沒有那么高,沒有專門訓(xùn)練風(fēng)格模型,而是去 AI 社區(qū)找別人的模型來用。生成了幾次,客戶對(duì)水彩風(fēng)格勉強(qiáng)接受,但認(rèn)為扁平風(fēng)格和他們的參考圖差異太大。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

別人模型的生成結(jié)果。

客戶公司自己就有一大批插畫師,有相當(dāng)數(shù)量的插圖是他們的插畫師純手工繪制的。于是乎,他們盯風(fēng)格那叫一個(gè)細(xì),甚至對(duì)于人物眼睛大小和畫法、水彩勾線的筆觸質(zhì)感、扁平色塊上微妙的鉛筆紋理,都有要求。

這下沒懶可偷了,只能用最精確的方式:自己訓(xùn)練模型。這事聽起來嚇人,但 AI 發(fā)展這么久了,借助現(xiàn)成的工具其實(shí)挺簡(jiǎn)單的。而且整個(gè)訓(xùn)練過程也不貴,只花了我不到 100。

客戶每種風(fēng)格都提供了幾十張參考圖,足夠訓(xùn)練了。模型訓(xùn)練出來后,除極個(gè)別風(fēng)格細(xì)節(jié)沒還原出來,其它方面簡(jiǎn)直以假亂真。恰好,缺失的風(fēng)格細(xì)節(jié),我也有辦法用 PS 來實(shí)現(xiàn),而且也能自動(dòng)化。這下風(fēng)格沒有問題了,客戶也認(rèn)為非常好。

挑戰(zhàn) 2:準(zhǔn)確表現(xiàn)人物互動(dòng)

另一個(gè)問題是 AI 對(duì)圖片內(nèi)容的理解。它雖能畫出公園,畫出小花,畫出男孩和媽媽,但人物的行為總是差點(diǎn)意思。比如男孩摘花視線卻不看花,男孩蹲下左手竟然放在右邊膝蓋上,媽媽伸手不像阻止卻像接受男孩獻(xiàn)花。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

這個(gè)畫得像媽媽扶男孩起來,男孩眼睛也不知道在看哪里。

這諸多問題的根源是,AI 能理解你要它畫的事物,但不理解事物之間的關(guān)系。因?yàn)樗⒉徽娴南袢祟愡@樣先理解物理世界再學(xué)畫畫,它像是個(gè)一輩子被關(guān)在地窖里的圈養(yǎng)畫師,看了無數(shù)別人的畫,然后開始邯鄲學(xué)步畫世間萬物。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

為此,我專門優(yōu)化了我的生圖系統(tǒng)。我在讓 deepseek 生成畫圖提示詞的時(shí)候,要求它把人物的動(dòng)作神態(tài)描述得極其細(xì)致,細(xì)到人物站在畫面的什么位置,多少度朝向哪個(gè)方向,視線看著哪里,左手在干什么,右手在干什么,等等。

這樣確實(shí)有大幅改善,但無法完全杜絕此類問題。AI 本身能力也就到這了,如果抽卡無法解決,只能后期手動(dòng)修復(fù)。

挑戰(zhàn) 3:解決手部畸形

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

還有個(gè)普遍問題:畸形的手,這是 AI 生圖老大難。手應(yīng)該是人類變化最豐富的肢體了,畢竟人類通過物理接觸來與周圍環(huán)境互動(dòng),無論什么形狀的物體,都優(yōu)先通過手來操作。目前的 AI 哪怕是閱圖無數(shù),能把人臉畫得惟妙惟肖,也還是領(lǐng)會(huì)不了人手的全部變化。

還是那個(gè)原因,繪圖 AI 是不理解物理世界的。不像人類美術(shù)生要從人體結(jié)構(gòu)學(xué)起,AI 學(xué)畫畫一上來就是一遍又一遍地刷像素點(diǎn),連手指數(shù)量都畫不對(duì)。

而且,客戶這道試稿題本身畫手難度也高。首先是手的尺寸小,畫面里兩個(gè)人物,還都是全身像,那手有多小就可想而知了。AI 的注意力沒多少能分配在手上,效果可想而知。

另外由于小男孩要摘花,這就得畫出手與花的互動(dòng),人手摘花主要發(fā)力的是拇指和食指。但不懂人體結(jié)構(gòu)的 AI 能畫對(duì)嗎?反正我是看到好幾張握紅酒杯的手勢(shì),把花莖夾在食指與中指之間。

同時(shí),媽媽的手還得阻止,要加上手與手之間的互動(dòng)。媽媽的手按在小男孩的手上,這種情況是最難的,兩只手手指重疊的情況,AI 往往畫成一團(tuán)糊。但也有取巧的辦法,讓媽媽的手按在男孩小臂上,或者抬起手來搖食指,同樣符合要表達(dá)的含義。

以上 3 個(gè)問題,風(fēng)格問題已經(jīng)穩(wěn)定解決,而人物互動(dòng)和手部問題則可以以量取勝,通過試稿并不難。至于第二輪試稿,雖然插圖數(shù)量加到了 5 張,但主體都是單個(gè)的動(dòng)物或人物,輕松通過。

技術(shù)分享

技術(shù)部分開始。

① 訓(xùn)練模型

為準(zhǔn)確還原客戶想要的兩種風(fēng)格:水彩與扁平,自己訓(xùn)練模型不可避免。Lora 模型非常擅長(zhǎng)解決這個(gè)問題。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

說實(shí)話,玩 SD 和 ComfyUI 這么久,訓(xùn)練 Lora 這事我竟然還是第一次干。之前沒有專門嘗試,因?yàn)槲掖_定訓(xùn)練模型會(huì)越來越簡(jiǎn)單,真有需要再臨時(shí)學(xué)。這不,現(xiàn)在只要在 Liblib 的圖形界面里點(diǎn)點(diǎn)鼠標(biāo)就可以完成了。

不過,訓(xùn)練過程還是有些設(shè)置項(xiàng)要考慮。如何裁剪圖片,給訓(xùn)練圖打什么標(biāo),訓(xùn)練多少輪,這些還是得好好琢磨。

讀了一篇 別人的 LoRA 訓(xùn)練經(jīng)驗(yàn),解答了全部疑問:

  1. 訓(xùn)練圖最好是方形圖。我沒有用 Liblib 的圖像裁剪功能,而是自己寫程序把圖都裁剪成了方形。這樣能把一些裁剪效果不好(比如人只剩半張臉、主體不完整)的圖剔除掉,以保證模型訓(xùn)練質(zhì)量。
  2. 風(fēng)格類 Lora,模型特征無差別應(yīng)用在整個(gè)畫面所有元素上,完全不打標(biāo)是個(gè)不錯(cuò)的選擇。這樣訓(xùn)練出來的 Lora,使用時(shí)不需要觸發(fā)詞,只要掛上 Lora,風(fēng)格就出來了。
  3. 關(guān)注 LOSS 函數(shù)的變化趨勢(shì),訓(xùn)練輪次增加,LOSS 逐漸減少。但到達(dá)一定輪次,曲線趨于平緩,LOSS 幾乎不再下降。如果不確定這是局部最小值還是全局最小值,看看模型的樣例圖也大概能判斷。其實(shí)對(duì)于細(xì)節(jié)較少的非寫實(shí)類圖片,有 8-10 輪訓(xùn)練,效果就很理想了。

② 自動(dòng)出圖工作流

把訓(xùn)練好的 Lora 傳到 Runcomfy 的存儲(chǔ)里,資源就緒。搭建一個(gè)最基礎(chǔ)的 Flux 文生圖工作流,再掛上兩個(gè) Lora,一個(gè)手部細(xì)節(jié)優(yōu)化 Lora,一個(gè)自己訓(xùn)練的風(fēng)格 Lora。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

這樣就準(zhǔn)備好了兩套生圖工作流,一套水彩風(fēng)格,一套扁平風(fēng)格。分別導(dǎo)出 API 格式文件,留待程序調(diào)用。

另一個(gè)核心工作流是高清放大。本質(zhì)是基礎(chǔ)的 Flux 圖生圖工作流,但有這幾個(gè)區(qū)別:

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

  1. 降噪值設(shè)為 0.15,能保證圖片高清放大時(shí)忠實(shí)于原圖內(nèi)容。
  2. 掛了一個(gè) 4 步生圖 Lora,它能讓 Flux dev 生成圖片時(shí)只需要 4 步(通常要 20 步),但質(zhì)量降低,把 Flux dev 當(dāng) Flux schnell 用,以大幅減少生圖時(shí)間。也不知道作者哪來的奇思妙想。這種用法很適合圖像放大的場(chǎng)合,質(zhì)量降低的影響很小,肉眼看不出來。
  3. 采樣節(jié)點(diǎn)前后都接了 TTP_Image_Tile_Batch 節(jié)點(diǎn)。它的作用是把原圖分割成許多小塊,生成的時(shí)候,F(xiàn)lux 每次只專注畫一個(gè)小塊里的內(nèi)容。由于注意力集中了,可以畫得更細(xì)致,細(xì)節(jié)更加準(zhǔn)確和豐富。最后,怎么分割的就再怎么拼回來,以此達(dá)到高清放大的目的。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

特別講講降噪值這個(gè)概念,想要 ComfyUI 玩得溜,這個(gè)概念必須深刻理解。我一直把它理解成在一堵漢白玉石墻上雕刻浮雕。比如說這墻有 1 米厚,降噪值為 1(最大值),就意味著你可以隨心所欲地雕。整堵墻鑿?fù)ǎ缓笳磧擅骈_工雕出個(gè)大衛(wèi)像都沒問題。降噪值如果為 0.15,也就是你只能動(dòng)表面 15%的厚度,里面的不能動(dòng),這樣最終只能是淺淺的浮雕。

在文生圖的情況下,這堵墻原本就是一塊平板,沒有任何圖案。降噪值越大,AI 發(fā)揮的余地越大,一般都會(huì)開滿。

但在圖生圖情況下,這墻上原本就雕有圖像。如果你想一定程度保留原圖的特征,降噪值反而不能開太大。一面九龍壁,你把降噪值開低一點(diǎn),AI 只能動(dòng)動(dòng)表面,它就會(huì)把心思花在龍鱗龍須這些細(xì)節(jié)上,不至于把整條龍改成了迎客松。

③ 手動(dòng)修補(bǔ)工作流

經(jīng)過測(cè)試,Lora 模型和生圖、放大工作流可以穩(wěn)定輸出了。但為了應(yīng)對(duì)各種可以預(yù)見的特殊修改,還是應(yīng)該把手動(dòng)修補(bǔ)的工具也準(zhǔn)備好。雖然我打算丟給插畫師,但得有 Plan B,如果插畫師實(shí)在忙不過來,我自己還能臨時(shí)頂一下。

手動(dòng)修補(bǔ)工作流有這幾個(gè):文生圖局部重繪、圖生圖局部重繪、轉(zhuǎn)繪。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

文生圖局部重繪,用的是 Flux dev fill 模型,這個(gè)模型是專門用來局部重繪和擴(kuò)圖的。工作流其他方面和基礎(chǔ)文生圖一樣,只是還掛了我訓(xùn)練的風(fēng)格 Lora。當(dāng)需要給人物加一頂帽子、換雙鞋子,改改貓尾巴的形狀,就用這個(gè)工作流。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

圖生圖局部重繪,用 Flux dev fill 結(jié)合 Flux redux 模型。要放入圖中的物體,經(jīng)過 Flux redux 的處理,能以合理的方式、相同的風(fēng)格融入畫面中,同時(shí)最大限度保持物體特征。Redux 無視文字提示詞,圖片是唯一的輸入信息。這個(gè)技巧最常用來給電商模特?fù)Q衣服。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

轉(zhuǎn)繪,則是 Flux dev 基礎(chǔ)模型和 Flux redux 的結(jié)合,給一張圖片生成一個(gè)整體看上去差不多、但沒有任何一處細(xì)節(jié)相同的仿制品。再掛上我的風(fēng)格 Lora,就能把照片轉(zhuǎn)繪成扁平或水彩插畫,同時(shí)原圖特征都盡量保持住。這是關(guān)鍵的自媒體洗稿技巧,把網(wǎng)圖一轉(zhuǎn)繪,既相似又避免盜圖處罰,別人的圖搖身一變,成了自己的原創(chuàng)內(nèi)容。

剛才提到的各種模塊,都可以在我的 Flux 萬能工作流 里找到。

之后所有的手動(dòng)修改,除了 PS 和偶爾使用的豆包,都是這 3 個(gè)工作流交替使用搞定的。配合不同的降噪值使用,又能產(chǎn)生更多用法變化,解決不同的問題。

技術(shù)部分結(jié)束。

2. 搭建自動(dòng)化生圖系統(tǒng)

試稿的插畫我是手動(dòng)生成的,現(xiàn)階段還在調(diào)試技術(shù)細(xì)節(jié)。同時(shí),我也在一邊搭建我的自動(dòng)化出圖系統(tǒng)。

兩輪試稿通過后,客戶已經(jīng)打算給我派活了。但我的系統(tǒng)還沒搭建完成,手動(dòng)生成太耗時(shí),所以這個(gè)單子我暫時(shí)推掉了,說等我系統(tǒng)完成開始接單。

系統(tǒng)搭建完成,我用第二輪試稿的任務(wù)又跑了一遍,非常絲滑。有了這套系統(tǒng),我具體要做的事情只剩這幾件:

  1. 把客戶的插圖內(nèi)容(Excel 中的一列)復(fù)制到我的多維表里,等 deepseek 自動(dòng)為每張插圖生成繪圖提示詞。
  2. 把多維表導(dǎo)出成表格文件,并把它放到我的程序目錄下。
  3. 運(yùn)行 1 號(hào)程序(生成),它會(huì)從表格文件中找到所有繪圖提示詞,啟動(dòng)云端機(jī)器,每幅插圖輸出 4 張圖片,全部完后自動(dòng)關(guān)閉云端機(jī)器。
  4. 手動(dòng)挑選圖片,如果某幅插圖一張可用的都沒有,就在多維表的重試列中打勾,之后再重復(fù)執(zhí)行 2、3 步直到成功。
  5. 運(yùn)行 2 號(hào)程序(放大),它會(huì)啟動(dòng)云端機(jī)器,把挑選出的圖都高清放大(童書是印刷品需要高清圖片)。
  6. 運(yùn)行 3 號(hào)程序(分辨率),它會(huì)把放大后的圖片轉(zhuǎn)換成印刷所需的分辨率,并縮放到客戶指定的尺寸。
  7. 執(zhí)行我準(zhǔn)備好的 PS 批處理動(dòng)作,給所有圖片加上紋理細(xì)節(jié)。
  8. 運(yùn)行 4 號(hào)程序(整理),把處理好的圖片按書籍分到不同文件夾,便于最終發(fā)送給客戶。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

這一套看似復(fù)雜,但手動(dòng)操作其實(shí)很少。挑圖費(fèi)點(diǎn)時(shí)間,其他的環(huán)節(jié)我只負(fù)責(zé)按一下運(yùn)行鍵,然后掛機(jī)下樓遛娃。

關(guān)鍵是,來 100 張圖也好,2000 張圖也好,我都是這套流程。要是量大又急,我還可以改一改配置,用速度更快的云端機(jī)器。雖然成本略高一點(diǎn),但機(jī)器成本和插畫師成本相比,九牛一毛。

技術(shù)分享

技術(shù)部分開始。

要實(shí)現(xiàn)剛才提到的系統(tǒng),就要把分散在不同工具里的自動(dòng)化能力銜接起來。一個(gè)完整的流程,最初的輸入來自客戶的 Excel 表格,其中一列是插圖內(nèi)容的簡(jiǎn)略需求描述。最終的輸出是一個(gè)個(gè)項(xiàng)目文件夾,里面是圖片文件。中間的復(fù)雜過程,能自動(dòng)化的通通要自動(dòng)化掉,難關(guān)只能自己一個(gè)個(gè)攻克。

① 飛書多維表生成繪圖提示詞

從簡(jiǎn)略描述到具體的繪圖提示詞,飛書多維表是最適合的工具。它能調(diào)用非常豐富的第三方 AI 模型,不局限于自家模型,可以實(shí)現(xiàn)復(fù)雜文本處理任務(wù)的自動(dòng)化。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

我的表格結(jié)構(gòu)有點(diǎn)復(fù)雜,從上到下有圖片表、人設(shè)表、項(xiàng)目表 3 層,另外還有兩張維度表,用來定義兩種風(fēng)格的提示詞和圖片復(fù)雜度等級(jí)(不同復(fù)雜度價(jià)格不同)。上層表依賴下層表,從下層表中讀取數(shù)據(jù)。下層表匯總上層表,用以統(tǒng)計(jì)圖片量、估算營(yíng)收。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

從下往上講。基礎(chǔ)是項(xiàng)目表,定義了項(xiàng)目名稱、所屬月份、圖片風(fēng)格,匯總計(jì)算圖片數(shù)量,根據(jù)每張圖的復(fù)雜度去需求類型表里查出價(jià)格并求和,估算整個(gè)項(xiàng)目營(yíng)收,同時(shí)也記錄一些備注性質(zhì)的信息。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

上一層人設(shè)表,專為人物一致性要求而準(zhǔn)備。如果是繪本類的書籍,要求主角服裝樣貌貫穿全書。這張表里定義了人物的名稱,選擇人物所屬項(xiàng)目,并由 deepseek 隨機(jī)為該人物生成詳細(xì)的外貌描述。此處給 deepseek 的指令,要求它只關(guān)注人物外貌,忽略動(dòng)作環(huán)境等會(huì)隨場(chǎng)景而變化的因素。還要明確要求 deepseek 定義發(fā)型發(fā)色、服裝款式顏色等主要外貌特征,且保證人物都是中國(guó)人。最后,為了我自己瀏覽方便,還調(diào)用階躍星辰的文生圖 API,輸出一列小尺寸縮略圖。雖然有費(fèi)用,但這個(gè)很便宜可以忽略不計(jì)。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

上層的圖片表變化最多,要展開講講。圖片表每行都是一張具體的插圖,客戶表格里的需求內(nèi)容往場(chǎng)景列(scene)一貼,多維表自帶的免費(fèi)豆包模型就會(huì)把描述總結(jié)成 10 個(gè)字以內(nèi)的畫面標(biāo)題。這個(gè)標(biāo)題既為了自己方便查找,也用來拼接出圖片文件名。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

然后,為每張插圖選定所屬項(xiàng)目(可以選好一行其他復(fù)制粘貼),就會(huì)有一列從項(xiàng)目表里讀取該圖片的風(fēng)格,并把風(fēng)格提示詞作為前綴加到完整繪圖提示詞的開頭。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

如果畫面里出現(xiàn)了主角,則在人物列選擇人物。我準(zhǔn)備了 3 個(gè)人物列,也就是說一個(gè)畫面支持 3 個(gè)主角同時(shí)出現(xiàn)。人物列會(huì)從人設(shè)表里把外貌描述讀取過來,作為完整繪圖提示詞的信息素材。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

我還加了一列人工指令,當(dāng)對(duì)畫面有明確而具體的要求時(shí),就直接寫在這里。比如要求時(shí)間是夜晚,環(huán)境是戶外。這也會(huì)作為信息素材。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

接下來輪到 deepseek 表演了。我讓它參照需求列的內(nèi)容用英文寫繪圖提示詞,重點(diǎn)滿足人工指令列的要求,其次滿足一些通用要求:

  1. 先算出畫面里有幾個(gè)人物。
  2. 詳細(xì)描述每個(gè)人的動(dòng)作,細(xì)到方位角度、視線朝向等。
  3. 外貌特征優(yōu)先從主角信息里照抄,一個(gè)字都不能改。非主角人物,外貌再自由發(fā)揮。
  4. 中國(guó)人、服裝符合時(shí)代背景等細(xì)節(jié)要求。
  5. 簡(jiǎn)略描述場(chǎng)景環(huán)境。
  6. 輸出的格式要求及示例。

deepseek r1 能夠漂亮地完成任務(wù),絕大多數(shù)時(shí)候生成的提示詞直接可用,準(zhǔn)確且詳細(xì)。不過,這里的 deepseek 不是免費(fèi)的,可以用火山方舟的 API。這部分成本比 Runcomfy 要低許多,不用太擔(dān)心。

如果被這種層層關(guān)聯(lián)的表結(jié)構(gòu)繞暈了,我的建議是,認(rèn)真弄明白多維表里的「單向關(guān)聯(lián)」和「查找引用」這兩種特殊列的用法,然后你就會(huì)發(fā)現(xiàn)這事也沒那么難。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

還有個(gè)問題是,飛書多維表個(gè)人免費(fèi)用戶一張表最多 2000 條數(shù)據(jù),對(duì)于這個(gè)項(xiàng)目體量來說遠(yuǎn)遠(yuǎn)不夠。所以圖片表得滾動(dòng)清理,不夠用了就刪掉舊的。因此我給項(xiàng)目表加了一列完成狀態(tài),打勾就完成了。圖片表再把完成狀態(tài)從項(xiàng)目表里讀過去,就可以通過篩選一次性把已定稿的圖片刪掉,為新項(xiàng)目騰出空間。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

剛才都是初次生圖所需的配置。我還加了幾列用來應(yīng)付需要修改的情況:

  1. 重試列,打勾表示需要重新生成。
  2. PS 列,打勾表示需要我來手動(dòng)修復(fù)。
  3. 修復(fù)列,打勾表示需要插畫師修復(fù)。
  4. x 和 y 坐標(biāo)列,這個(gè)用來從圖中裁出一塊,用 AI 局部重繪修手,完了再貼回原圖上。這在后面開工的部分再講。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

這幾列起到的只是標(biāo)記作用,看客戶修改意見時(shí),一邊看,這里一邊打勾。我為圖片表添加了幾個(gè)子視圖,根據(jù)這幾列的打勾情況列出對(duì)應(yīng)圖片清單。清單導(dǎo)出成 csv 文件后,運(yùn)行對(duì)應(yīng)的程序可以一鍵從圖片堆里把它們找出來,復(fù)制到專門的目錄下,免去手動(dòng)找圖。

有這樣一套表格系統(tǒng),就可以在一個(gè)地方完成所有圖片的管理、繪圖提示詞的生成,并且能應(yīng)對(duì)后續(xù)的多輪修改。

② Python 生圖放大

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

這是指兩個(gè)程序,1 號(hào)和 2 號(hào)。它們覆蓋了自動(dòng)化流程里的中間一段,從繪圖提示詞到產(chǎn)出高清圖。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

1 號(hào)程序接收多維表輸出的 csv 文件,從中讀取整列繪圖提示詞,交給 Runcomfy 處理。根據(jù)風(fēng)格調(diào)用相應(yīng)的生圖工作流,大批量輸出圖片。

圖片輸出后,人工挑選,同時(shí)在表格里標(biāo)記需要重試的。反復(fù)運(yùn)行 1 號(hào)程序,它會(huì)優(yōu)先讀取重試圖片清單,重新生成。

確保所有插圖都可用后,運(yùn)行 2 號(hào)程序,圖片交給 Runcomfy,調(diào)用高清放大工作流,得到印刷質(zhì)量的圖片。

但 1 號(hào)程序和 2 號(hào)程序背后,需要許多底層的代碼來支撐。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

首先,Runcomfy 的 API 是繞不開的,必須調(diào)通,這是程序生圖的核心。對(duì)于沒有編程經(jīng)驗(yàn)的人,對(duì)接 API 是挺有挑戰(zhàn)的。但只要選擇編程能力足夠強(qiáng)的模型,并且保持耐心跟它一起排查錯(cuò)誤、反復(fù)嘗試,最終還是能調(diào)通。當(dāng)然,不能一路“還是不對(duì)”這樣盲改,多讓 AI 讀 API 文檔:https://comfyui-guides.runcomfy.com/api-reference

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

調(diào)通之后一勞永逸,就獲得了一個(gè)可以在任何項(xiàng)目中使用的 AI 生圖工具函數(shù)。輸入任意工作流、機(jī)器類型等參數(shù),云端機(jī)器就給我一張圖。

為了程序穩(wěn)定運(yùn)行,得考慮代碼的健壯性。調(diào)用 API 的網(wǎng)絡(luò)環(huán)境不會(huì)永遠(yuǎn)通暢,需要加上重試和指數(shù)退避機(jī)制,讓程序不至于遇到網(wǎng)絡(luò)錯(cuò)誤就停止運(yùn)行。

另外,這個(gè)函數(shù)的使用前提是云端機(jī)器得開著。所以為此還需要一整套的機(jī)器管理函數(shù):?jiǎn)?dòng)機(jī)器、檢查是否有可用機(jī)器、關(guān)閉機(jī)器等。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

完整的工具函數(shù)文件,代碼結(jié)構(gòu)如上。

到了童書插圖項(xiàng)目里,可以對(duì)基礎(chǔ) Runcomfy 函數(shù)再封裝一層,加入一些業(yè)務(wù)邏輯。因?yàn)槲覀儾⒉粫?huì)輸入任意工作流,我們只有生圖和放大兩個(gè)工作流。

封裝后的業(yè)務(wù)級(jí)工具函數(shù),輸入不再是整個(gè)工作流,而是繪圖提示詞、要放大的圖片、降噪值等具體屬性。但它仍然只處理一張插圖。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

生成圖片函數(shù)的 docstring。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

高清放大函數(shù)的 docstring。

再上層的應(yīng)用,就是 1 號(hào)和 2 號(hào)程序了。它們把機(jī)器管理的能力也用上了。生圖時(shí)檢查有沒有機(jī)器已經(jīng)開著,有就直接用,沒有就啟動(dòng)一臺(tái)新的。所有圖片生成完畢,自動(dòng)關(guān)閉當(dāng)前使用的機(jī)器,及時(shí)停止計(jì)費(fèi)。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

除此之外,我還給 1 號(hào)和 2 號(hào)程序配上了統(tǒng)計(jì)功能,可以根據(jù)機(jī)器類型、價(jià)格、運(yùn)行時(shí)長(zhǎng)算出程序每次運(yùn)行的開支。運(yùn)行日志固定寫到一個(gè)表格文件里,機(jī)器成本與多維表里的營(yíng)收數(shù)據(jù)再導(dǎo)到一張專門的財(cái)務(wù)表里,手動(dòng)填上插畫師開支、火山方舟 deepseek 開支、階躍星辰 API 開支,就能輕松算出利潤(rùn)。

我編程水平也就那樣,但在 AI 的輔助下,做出這樣一套系統(tǒng)也沒多難。

③ Python 調(diào)整分辨率和尺寸

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

這就是 3 號(hào)程序,把處理分辨率和圖片尺寸的環(huán)節(jié)自動(dòng)化了。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

客戶對(duì)最終成品圖的要求是,10×10cm,PPI(每英寸的像素?cái)?shù)量)是 450。

這用 Python 和 PIL 包很容易處理。根據(jù)要求的尺寸和分辨率,可以算出成品圖的像素大小,再用 PIL 內(nèi)置的方法調(diào)整分辨率。

這個(gè)程序完全在本地運(yùn)行,沒有云端調(diào)用,0 開支,耗時(shí)也短。

④ PS 批處理加上風(fēng)格紋理

這部分是為了滿足客戶對(duì)風(fēng)格的細(xì)致要求。

比如水彩風(fēng)格,訓(xùn)練出來的模型,生成背景有明顯的水彩筆觸,但人物服裝有時(shí)候看起來是純色的??蛻粝M宋锓b也要有水彩筆觸一樣的隨機(jī)明暗變化。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

比如褲子上這種不均勻的明暗變化。

至于扁平風(fēng)格,客戶想要的其實(shí)是一種很特殊的風(fēng)格,并非那種純色色塊構(gòu)成的商業(yè)矢量插畫。細(xì)看參考圖,扁平色塊上有白色顆粒感的筆觸,創(chuàng)造出一種彩色鉛筆的質(zhì)感。而模型生成圖片,色塊部分則完全是純色。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

微妙的涂抹痕跡。

這么細(xì)微的風(fēng)格特征,訓(xùn)練 Lora 時(shí)捕捉不到,但通過 PS 二次加工也能實(shí)現(xiàn)。傳統(tǒng)做法是找水彩或鉛筆質(zhì)感的 PS 筆刷,用半透明的白色在圖上刷一遍。但我要的是自動(dòng)化,得讓這個(gè)過程標(biāo)準(zhǔn)化,略微犧牲一點(diǎn)效果也沒關(guān)系。

其實(shí)這本質(zhì)是往圖片上疊一層紋理。紋理有隨機(jī)性,有的地方更透,有的地方更實(shí),像從飛機(jī)上透過云層看大地。紋理的隨機(jī)模式不同,最終形成了不同的筆觸質(zhì)感。我只要想辦法試出這兩種紋理,就可以用在所有圖上,實(shí)現(xiàn)自動(dòng)化。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

這難不倒身為設(shè)計(jì)師的我。找素材啊,往測(cè)試圖上疊,一層又一層。把圖層模式設(shè)成濾色和顏色加深,消除紋理的本色,讓它只影響圖片明暗。很快就調(diào)出了這兩種紋理,保存成 PSD 文件。

接下來做 PS 批處理程序。不熟悉 PS 的人可以這么理解,我打開一個(gè)開關(guān),PS 就開始記錄我的所有動(dòng)作。把復(fù)雜的圖片處理流程先手動(dòng)做一遍,停止記錄,就產(chǎn)生了一個(gè)批處理動(dòng)作。然后 PS 能對(duì)一整個(gè)文件夾里的圖使用這個(gè)動(dòng)作,就實(shí)現(xiàn)了自動(dòng)化加紋理。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

動(dòng)作過程如下:

  1. 打開一張圖片。
  2. 置入之前準(zhǔn)備好的紋理 PSD 文件。
  3. 把紋理轉(zhuǎn)換為圖層,混合模式從正常改成穿透,里面的濾色和顏色加深才能生效。
  4. 合并所有圖層,把紋理固化到圖片上。
  5. 轉(zhuǎn)成 CMYK 顏色模式,這是印刷工藝需要。
  6. 另存為 TIFF 格式,印刷需要的格式。
  7. 關(guān)閉圖片。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

使用這個(gè)批處理動(dòng)作時(shí),打開圖片和另存為會(huì)被新的設(shè)置覆蓋,這樣每次處理的都是不同的圖片。

轉(zhuǎn)換成 CMYK 的工作,在上一步 Python 里也可以實(shí)現(xiàn),我一開始就是這么做的。但 PIL 包所用的顏色描述文件不專業(yè),相比圖像處理軟件效果差很多,導(dǎo)致整張圖發(fā)黃。和顏色相關(guān)的事情,還是適合 PS 來做。

技術(shù)部分結(jié)束。

三、開工

現(xiàn)在,萬事就緒,開始接單。

1. 按下啟動(dòng)開關(guān),圖嘩啦啦出來

第 1 個(gè)實(shí)戰(zhàn)項(xiàng)目圖不多,1 本書,82 張圖,給 7 天時(shí)間。

時(shí)間方面我自己這邊是毫無壓力,半天就全出來了。感覺像臺(tái)照片打印機(jī)(如果不能比作印鈔機(jī)的話)。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

82 張插圖里,有一半左右沒有人物。這種圖片不容易出問題,往往首次生成就可用。所有圖片進(jìn)入重試流程的不到 20 張。我沒有專門為手部問題重新生成,重試的幾乎都是人物互動(dòng)關(guān)系不太對(duì)的情況。

其中有 3 張圖人物非常多,這類群像圖指望 AI 一步到位是不現(xiàn)實(shí)的。我重新生成幾次從中挑出問題較少的圖,留給插畫師修。

初稿提交客戶,向客戶說明插畫師還未介入,先忽略手部問題,后續(xù)會(huì)集中修復(fù)。這樣避免插畫師做無用功,畢竟每一次改都是成本。

2. 突遭變故,插畫師退出

我這種一心鉆到技術(shù)里的人,總是容易低估人的變數(shù)。

不過現(xiàn)在,還是先說說客戶對(duì)初稿的反饋。說實(shí)話我是有點(diǎn)震驚的,修改意見那叫一個(gè)細(xì)??偨Y(jié)下來大概分幾類:

  1. 細(xì)節(jié)不符合現(xiàn)實(shí)世界邏輯,比如課桌椅少了或者多了腿。
  2. AI 漏了指定元素,比如畫臺(tái)燈漏了旋鈕。
  3. 風(fēng)格要求變了,比如模型訓(xùn)練圖里,人物頭發(fā)有表現(xiàn)高光陰影的線條,但客戶要求去掉這些線條。
  4. 可能存在法律風(fēng)險(xiǎn)的內(nèi)容,比如警察服裝是外國(guó)樣式。
  5. 印刷要求,比如夜晚和雷雨天的天空仍然要畫成亮色,否則深色印刷出來效果會(huì)差。
  6. 美觀要求,人物服裝款式單一,要求多樣化一些。
  7. 不太能理解的要求,比如小孩不能穿背帶褲,長(zhǎng)褲不能露腳踝,不能卷褲腳,笑不能露齒。嗯……難道是收到過這樣的買家差評(píng)?

第一輪審稿意見,82 張里有 71 張要修改,修改點(diǎn)遠(yuǎn)不止手部問題,那剩下 6 天時(shí)間給插畫師就危險(xiǎn)了。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

和插畫師一溝通,對(duì)方要求再次確認(rèn)價(jià)格。這一確認(rèn),突然就變卦了,覺得價(jià)格太低,甚至連講價(jià)都沒講,直接就退出了。

憑心而論,我給的價(jià)格確實(shí)不是很有誘惑力。加上這種給 AI 擦屁股的活,可能插畫師內(nèi)心多少是抵觸的。

這時(shí)候,我朋友在給我另尋插畫師,我自己也一直有在多方打聽。結(jié)果不是很樂觀,按目前市場(chǎng)水平,插畫師們的心理價(jià)位其實(shí)比我的出價(jià)高很多,甚至一些大廠插畫師能報(bào)出 100 一張的價(jià)格。而按照客戶這邊的審稿情況,后面幾輪的修改量到底有多大,我心里也沒底。即使讓出大部分利潤(rùn),高價(jià)找一個(gè)插畫師合作,仍然有極大風(fēng)險(xiǎn),成本兜不住。

3. 咬牙自己改,試探 AI 的能耐

既然這樣,這次我就自己來吧。一方面試探客戶的修改意見到底能細(xì)到什么程度,以決定后續(xù)以什么標(biāo)準(zhǔn)來找插畫師。另一方面也考驗(yàn)一下自己的 AI 能力,我雖是設(shè)計(jì)師,但不會(huì)畫畫,看我的 AI 技能+P 圖技能有沒有本事兜底,讓我有底氣不完全依賴插畫師。當(dāng)然,我自認(rèn)為 PS 技巧相當(dāng)了得,這才敢繼續(xù)干下去。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

緊鑼密鼓改了一周的圖,經(jīng)過 6 輪審稿,總共改了 71 + 60 + 33 + 11 + 3 + 13 = 191 張圖。此刻我只想說一句“我滴個(gè)娘嘞”。其中個(gè)別圖問題太多,我拋棄了原先的圖全新生成,但這僅僅是減少問題,仍然需要局部調(diào)整。其余的圖重新生成風(fēng)險(xiǎn)較高,容易引入新問題,最好是在現(xiàn)有圖片基礎(chǔ)上修補(bǔ)。所有這些修補(bǔ)只能手動(dòng)。

這樣一來,生圖系統(tǒng)的自動(dòng)化流程就遇到了巨大堵點(diǎn)。在生成圖片和高清放大之間,大量手動(dòng)修圖代替了原先的簡(jiǎn)單挑圖。

意外的是,這一周修下來,除了時(shí)間緊張忙得我手抖外,進(jìn)展還算順利??蛻舻囊蟊鞠胫M量滿足,搞不定的只能協(xié)商一下,以沒有插畫師為由讓對(duì)方考慮變通方案。結(jié)果全部要求都通過各種技巧的組合滿足了,竟然沒有搞不定的。至于改這么多輪,那是客戶方面工作流程就這樣。每一輪的修改意見都是之前沒提過的點(diǎn),審稿審不到那么全面,并非修改不到位。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

所有要求都滿足,但我完全不會(huì)畫畫,這是怎么做到的呢?光用 AI 改圖是不現(xiàn)實(shí)的,AI 畫圖難以精確控制。好在我有 PS 技巧,可以用各種手段讓 AI 乖乖就范:

  1. 小范圍擦除類任務(wù),只用 PS 就能完成。
  2. 大范圍擦除類任務(wù),用豆包的局部重繪又快又好。
  3. 元素移動(dòng)變形類任務(wù),也是 PS 的傳統(tǒng)強(qiáng)項(xiàng)。
  4. 無精確要求的創(chuàng)造類任務(wù),用 AI 工作流局部重繪,可保畫風(fēng)一致。
  5. 對(duì)物體有精確要求的創(chuàng)造類任務(wù),則通過從網(wǎng)上搜圖,讓 AI 局部重繪或轉(zhuǎn)繪,保持了主體,又匹配了風(fēng)格。

這些技巧,在下面的技術(shù)部分我會(huì)展開講講。

技術(shù)分享

技術(shù)部分開始。

這部分已經(jīng)脫離自動(dòng)化的范疇了,都是手動(dòng)改圖遇到的難點(diǎn)和解決辦法。

① 技巧與用途

首先,介紹一下用到的各種技巧,以及它們的能力:

  1. 「Flux」文生圖局部重繪(高降噪值):完全替換掉圖里某個(gè)元素。
  2. 「Flux」文生圖局部重繪(低降噪值):把圖中元素畫得更細(xì)致,常用于修手。
  3. 「Flux」圖生圖局部重繪:把指定物體放到圖片中。
  4. 「Flux」轉(zhuǎn)繪:參照?qǐng)D中元素和風(fēng)格,重畫一張,用來把照片變成插圖,或者融合不同風(fēng)格的物體。
  5. 「豆包」對(duì)話改圖:快速大范圍改色、擦除物體,但畫風(fēng)保持不太穩(wěn)定。
  6. 「豆包」局部重繪:精確局部擦除,好處是可以直接修改放大后的高清圖,丟給 Flux 處理則奇慢無比。
  7. 「PS」快速選擇工具:通過大致涂抹選中一個(gè)物體,顏色相近的部分也會(huì)自動(dòng)選上,便于分離出來。
  8. 「PS」魔棒工具:完全根據(jù)顏色選擇,可以設(shè)定顏色的篩選范圍,適合選中樹枝、樹葉等形狀非常復(fù)雜的物體。
  9. 「PS」污點(diǎn)修復(fù)畫筆:低配版局部重繪,在簡(jiǎn)單背景的表現(xiàn)上不輸豆包。
  10. 「PS」內(nèi)容識(shí)別填充:效果比污點(diǎn)修復(fù)畫筆更好一些,但需要先圈選再填充,而且會(huì)產(chǎn)生新圖層,不太方便。
  11. 「PS」仿制圖章:把一處畫面畫到另一處位置,經(jīng)常用來修補(bǔ)兩種顏色的邊界線,沿著邊界一路抹過去,可以把斷開的線接上。
  12. 「PS」涂抹工具:就是字面意思,像小孩在餐桌上按著飯菜一頓亂涂,它與仿制圖章相反,可以把一些不想要的邊界線涂亂,讓它們不那么明顯。
  13. 「PS」操控變形:把一個(gè)物體局部釘住,拖動(dòng)剩余部分,物體就像橡皮一樣任你彎折??梢宰屓宋锾ь^低頭、彎起胳膊伸直腿。
  14. 「PS」色階與色相飽和度調(diào)整圖層:改變亮度和顏色,配合剪貼蒙版可以只應(yīng)用在畫面局部,輕松修改衣服顏色。
  15. 「PS」木刻濾鏡:把畫面的顏色降到只剩幾種,這是濾鏡庫里能把圖片處理成扁平風(fēng)格的最佳工具。

接下來,看看這些技巧的組合如何解決一些疑難問題。

難題 1:交警指揮交通

關(guān)鍵技巧:豆包局部重繪、內(nèi)容識(shí)別填充、木刻濾鏡

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

有趣的是,這張插圖的難點(diǎn)竟然來自文化原因。Flux 是一個(gè)德國(guó)團(tuán)隊(duì)訓(xùn)練出來的模型,它的訓(xùn)練數(shù)據(jù)里,中國(guó)的服飾元素顯然不足。讓它畫一張交警指揮交通,它畫出的交警服完全是外國(guó)樣式。但童書上不能出現(xiàn)這種問題。

文生圖局部重繪,降噪值 1,明確要求它畫藍(lán)色短袖中國(guó)交警襯衫。然后就會(huì)出現(xiàn)如下情況:

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

這是 Liblib 的限制,禁止生成一些可能有法律風(fēng)險(xiǎn)的內(nèi)容。無論是提示詞里帶有“警察”,還是生成的圖太像警服,都會(huì)觸發(fā)屏蔽。當(dāng)然,你也可以選擇一些沒有屏蔽的平臺(tái),不過 Liblib 它便宜啊,是沒有好顯卡時(shí)的絕佳選擇。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

但如果去掉警察相關(guān)的詞,畫出來真的就是很普通的短袖藍(lán)襯衫,不像警服了。寫也不是,不寫也不是。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

既然 Liblib 上的 Flux 這么扭捏,不如試試別的工具。豆包的即夢(mèng)模型沒有這個(gè)限制,而且效果不錯(cuò),大概樣子就出來了。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

白色交警帽難度更高,豆包也畫不對(duì),像高檔酒店門口的停車引導(dǎo)員。白色交警帽樣式有它鮮明特征,特征少了,相似度會(huì)直線下降。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

可以找個(gè)角度大致吻合的交警帽 P 上去。注意,為了避免被屏蔽,先用 PS 把上面的警徽給擦掉,等圖片不必經(jīng)手 AI 了再加回來。這里能看到 PS 內(nèi)容識(shí)別填充的威力,輕松就把警徽去掉了。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

把帽子擺好位置,現(xiàn)在還是寫實(shí)風(fēng)格。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

給帽子加上木刻濾鏡,減少顏色數(shù)量,風(fēng)格一下就變扁平了。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

沒有那么違和了,難題解決。當(dāng)然,圖里還有很多其他問題,都有比較穩(wěn)定可靠的修復(fù)方法,這里就不講了。

難題 2:跳繩的小孩

關(guān)鍵技巧:文生圖局部重繪(低降噪值)、轉(zhuǎn)繪、操控變形

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

這張插圖又觸及 Flux 的能力邊界了。它跳繩的場(chǎng)面肯定見太少,畫的都是小孩胡亂揮舞繩子,甚至能有繩子就已經(jīng)不錯(cuò)了。本想大力出奇跡,一口氣生成 16 張圖,居然一張能用的都沒有。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

不過沒關(guān)系,只要?jiǎng)幼鲗?duì),跳繩可以畫上去。這張最有改造潛力,PS 胡亂畫個(gè)跳繩,就有點(diǎn)像那么回事了。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

使用轉(zhuǎn)繪工作流,降噪值設(shè)為 0.7。大體保持原圖內(nèi)容,留給 AI 的發(fā)揮余地足夠讓它把跳繩畫得更真實(shí)。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

這里展開講講手部的修復(fù)??梢钥吹叫『⒂沂譀]有拇指,或者說拇指和食指連成一片了。雖然可以直接在這張圖上局部重繪,但手持物體的情況,AI 往往畫不好,大量重試都不一定能成功。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

對(duì)于這種面積很小的手部,AI 修不好是正常的,因?yàn)榉峙涞淖⒁饬μ倭恕P奘值年P(guān)鍵不是局部重繪,而是放大。放大之后清晰很多,細(xì)節(jié)足夠,雖然手仍然是壞的,但修起來成功率就高多了。

不過,如果 Flux 直接在完整的高清圖上局部重繪,不僅速度非常慢,而且偏離 Flux 擅長(zhǎng)的生成尺寸,很容易崩。解決辦法是把要修的部分單獨(dú)裁剪出來,取一塊 1024×1024 大小的圖片,這是 Flux 最擅長(zhǎng)的尺寸,可以保障生成效果。修完了再貼回去。

可是貼回去的時(shí)候準(zhǔn)確對(duì)位置很費(fèi)勁啊,這就要借助程序來精確處理了。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

回顧一下之前飛書多維表里的 x 和 y 坐標(biāo)列,它是我放大裁剪和粘貼程序的一部分。我的裁剪程序可以把圖片劃分成 5×5=25 個(gè)切片,每個(gè) 1024×1024,切片之間可以相互重疊。我在多維表里填上切片的行列號(hào),比如上圖取第 2 列(x 為 2)第 3 行(y 為 3)的切片,這個(gè)目測(cè)就能看出來。然后運(yùn)行裁剪程序,它就能把這塊切片單獨(dú)存出來。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

再對(duì)切片圖用局部重繪,一次成功。降噪值可以看情況調(diào)整,原先的手問題很大,降噪值就要高。反過來,如果像本圖情況,手的大部分姿勢(shì)是對(duì)的,降噪值就要低,避免引入新問題。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

再運(yùn)行配套的粘貼程序,它根據(jù)裁剪時(shí)的行列序號(hào),準(zhǔn)確把切片貼回原圖上。

不過這個(gè)人物的姿態(tài)還是不太自然,客戶提過這樣的意見,他們覺得人物站在地面不像是跳起來了。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

也行,這個(gè)用 PS 就能處理:操控變形。先用快速選擇工具把整個(gè)小腿和腳都選中,復(fù)制到新圖層里。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

開啟操控變形,關(guān)節(jié)處用很多釘子釘住了。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

按住鞋子往后一拉,腿就彎過來了。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

再把原先的腿擦掉,就拗過來了。不過膝蓋連接處有個(gè)小尖角沒處理好,地面上也缺少投影,純技術(shù)演示,小問題這里就不修了。

難題 3:暴風(fēng)雨中的柳樹

關(guān)鍵技巧:轉(zhuǎn)繪、豆包對(duì)話改圖

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

畫出來這枝繁葉茂的樣子,筆直垂下的枝條甚至有點(diǎn)像榕樹的氣生根。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

我想看看是 Flux 不認(rèn)識(shí)柳樹,還是被我的風(fēng)格 Lora 污染了,在這種風(fēng)格下所有樹都畫成這樣。于是關(guān)掉 Lora,去掉風(fēng)格提示詞,讓它生成寫實(shí)照片,發(fā)現(xiàn)它原來真的不認(rèn)識(shí)柳樹。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

那就在這張基礎(chǔ)上改吧。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

先用豆包對(duì)話改圖把樹去掉,留下背景。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

再想辦法弄出一棵插畫風(fēng)格、枝條特征顯著的柳樹。直接網(wǎng)上找素材是最快捷的方法。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

豆包對(duì)話改圖把柳樹改成彩色的。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

用 PS 粗糙地拼起來。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

經(jīng)過幾輪低降噪值轉(zhuǎn)繪(0.3),效果就比較自然了。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

最后把柳樹葉子改亮一些,避免和烏云混在一起。雨滴的方向還不對(duì),應(yīng)該順著風(fēng)向。在分離背景那一步其實(shí)應(yīng)該順便去掉,最后在找素材加上。這里就不管了。

難題 4:教室大掃除

關(guān)鍵技巧:文生圖局部重繪(高降噪值)、圖生圖局部重繪、轉(zhuǎn)繪

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

這個(gè)畫面要體現(xiàn)一個(gè)小孩擦窗戶,其他小孩在打掃別的地方。AI 一遇到這種人物眾多要求復(fù)雜的情況就漏洞百出。人物動(dòng)作不合邏輯,課桌椅也缺胳膊少腿,沒有一張能用的。

這些問題一個(gè)個(gè)修,不如找一張真實(shí)照片或手工插畫來轉(zhuǎn)繪。至少里面人物和環(huán)境都是合理的,在轉(zhuǎn)繪過程中可能引入少量問題,但也比憑空生成的容易修。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

降噪值開到 1,轉(zhuǎn)繪完,風(fēng)格就拗過來了。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

盆的造型太古老了,換個(gè)現(xiàn)代的盆。不過盆太深了,手也缺了,可以之后再修。其他小問題用簡(jiǎn)單的修補(bǔ)方法都可以搞定。

這張圖的問題比我給客戶的圖少,有個(gè)典型問題沒有出現(xiàn):抹布造型。

月產(chǎn)2000張!高手如何打造AI繪圖的全自動(dòng)化流程?

在給客戶的圖片中,有一版過程稿里的抹布長(zhǎng)這樣。提示詞里用的單詞是 rag,確實(shí)是抹布。但這個(gè)英文單詞也有破布的意思,F(xiàn)lux 就把它畫成這樣亂糟糟一團(tuán),像個(gè)拖把頭。

文生圖局部重繪,描述成 a piece of cloth,一塊布,反而變得更像正常的抹布了。所以有時(shí)候并不是畫不出來,是沒有找到合適的提示詞。

手動(dòng)改圖遇到的疑難問題不止這些,但把前面列出的技巧組合使用,最終都有辦法解決。

技術(shù)部分結(jié)束。

四、歇業(yè)

這單做完,評(píng)估了一下總修改量和所用時(shí)間,決定關(guān)門大吉不再接單。原因很簡(jiǎn)單,修改量太大,且時(shí)間緊張,單個(gè)插畫師兼職不足以應(yīng)付,得全職。如果單人全職,即使我一分不掙利潤(rùn)都給插畫師,收入可能都不如上班打工,誰愿干?。咳绻嗳思媛?,則要花過多精力在溝通上,還要疲于應(yīng)付人員流動(dòng)。

綜合考慮下來,這生意實(shí)際上杠桿太小,見好就收吧。

至于這么復(fù)雜一套生圖流程,構(gòu)思、搭建和調(diào)試,總共投入了兩個(gè)星期時(shí)間。但也沒有白做,稍作修改便可以用來干別的,等有需要時(shí)再重新啟用。

后記

這是一次在實(shí)際項(xiàng)目中密集使用 AI 的經(jīng)歷,讓我得以感受 AI 對(duì)生產(chǎn)力的提升,也體會(huì)了 AI 到穩(wěn)定商用的距離。

項(xiàng)目完成,有了喘息的時(shí)間,一邊寫下本文,一邊回顧整個(gè)過程。想想還是震撼,畢竟從頭到尾所有事情都是我一個(gè)人完成的。我沒想到,兒童插畫在 AI 的加持下是可以(部分)流水線生產(chǎn)的。我也沒想到,AI 能讓一個(gè)不會(huì)畫畫的人頂大半個(gè)插畫師。

當(dāng)然,用 AI 終歸是為了解決問題,不是為 AI 而 AI。現(xiàn)階段 AI 不是萬能藥,它不行的部分,要用傳統(tǒng)手段來提供可靠保障。AI 是柔性的、隨機(jī)的,傳統(tǒng)手段是剛性的、確定的,這兩者結(jié)合起來用,就像建造一尊大型泥塑。全都用泥,整體軟趴趴很難成型,但如果往一個(gè)木芯上面糊泥巴,則既穩(wěn)固,又有細(xì)節(jié)。

就我個(gè)人而言,我敬重能把泥塑做得惟妙惟肖的手藝人,但我更愿意開一家生產(chǎn)木芯的流水線工廠賺錢。

收藏 149
點(diǎn)贊 157

復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。