只要三分鐘,讓你快速掌握 SD-Lora 模型煉制的基礎(chǔ)知識(shí)

SD-Lora 模型煉制基本介紹

在 AI 生成的浪潮中,Stable Diffusion (SD)模型配以 Lora(低秩自適應(yīng))算法,為創(chuàng)作者開辟了一條低成本、高效率的個(gè)性化模型定制路徑。

相較于從頭訓(xùn)練大型生成模型,Lora 通過在預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行輕量級(jí)微調(diào),顯著降低了計(jì)算資源的需求和時(shí)間成本。同時(shí)保持了生成內(nèi)容的高質(zhì)量與獨(dú)特性。

由于Lora 模型的煉制流程較為復(fù)雜且涉及較多的概念。因此,我們將分為上下期來向大家介紹 Lora 模型的煉制流程。

本次我們將先介紹 Lora 模型煉制的前期準(zhǔn)備、參數(shù)設(shè)置和打標(biāo)簽。

只要三分鐘,讓你快速掌握 SD-Lora 模型煉制的基礎(chǔ)知識(shí)

一般來說, 底模的煉制需要借助大約 10~20 萬張相關(guān)的圖片進(jìn)行煉制。而借助相對(duì)成熟的底模則可大大降低煉制圖片數(shù)量。且煉制方式和流程與線下煉制流程基本保持一致。

我們使用平臺(tái) Liblib.AI 的 Lora 模型,進(jìn)行 SD-Lora 模型訓(xùn)練流程的一般化講解。這不僅簡(jiǎn)化煉制方式、降低煉制成本且在細(xì)節(jié)上可以實(shí)現(xiàn)更好的私人化處理。

以下展示的就是 Liblib.AI 的 Lora 模型的展示界面。點(diǎn)擊「訓(xùn)練我的 LoRA」 即可開始

只要三分鐘,讓你快速掌握 SD-Lora 模型煉制的基礎(chǔ)知識(shí)

只要三分鐘,讓你快速掌握 SD-Lora 模型煉制的基礎(chǔ)知識(shí)

一、前期準(zhǔn)備

Lora 模型訓(xùn)練前期準(zhǔn)備,需要完成數(shù)據(jù)集準(zhǔn)備、模式選擇以及內(nèi)容選擇。

數(shù)據(jù)集準(zhǔn)備:生成目標(biāo)圖片時(shí),需要確定適合的模型系列(SD 1.5 或者 SDXL),并將參考圖片裁剪為對(duì)應(yīng)尺寸。

只要三分鐘,讓你快速掌握 SD-Lora 模型煉制的基礎(chǔ)知識(shí)

模式選擇:在 Liblib·AI 的訓(xùn)練平臺(tái)中,提供「自定義」,「XL」,「人像」,「ACG」,「畫風(fēng)」這四種模式。這四種模式在訓(xùn)練平臺(tái)上會(huì)導(dǎo)致默認(rèn)選擇的底模不同,同時(shí)也在預(yù)覽的提示詞上也會(huì)有不同。四種基礎(chǔ)模式也決定了煉制 Lora 模型需要的數(shù)據(jù)集圖片數(shù)量。

我們綜合估量各類訓(xùn)練平臺(tái)的模式,實(shí)現(xiàn)相對(duì)精準(zhǔn)的模型訓(xùn)練??偨Y(jié)出四類 Lora 模型所需的圖片數(shù)量。所需數(shù)量展示如下:

  1. 自定義/SDXL(一般):15~30 張;
  2. 人像(Character):10~50 張;
  3. 畫風(fēng)(Style):100~4000 張(在線煉制平臺(tái)一般支持的上限是 2000 張);
  4. 概念(Concept):50~2000 張。

只要三分鐘,讓你快速掌握 SD-Lora 模型煉制的基礎(chǔ)知識(shí)

其中,Liblib·AI 中 ACG 模式所需圖片數(shù)量與畫風(fēng)(Style)一致。

內(nèi)容選擇:訓(xùn)練 Lora 模型時(shí),需要確定訓(xùn)練所需的參考圖。其中需要考慮關(guān)于主體物不同維度的選擇:

不同角度;不同表情姿勢(shì);不同光線場(chǎng)景;高清圖片。

以人像為例,在圖片選擇的時(shí)候,需要采用:

  1. 不同的面部表情;
  2. 不同的服裝;
  3. 不同的姿態(tài);
  4. 不同的手的造型(如果有必要的話, 可以增加專門手的圖片)。

二、參數(shù)設(shè)置

在 Liblib·AI 平臺(tái)中,參數(shù)設(shè)置分為三個(gè)部分:底模選擇,參數(shù)選擇,模型效果預(yù)覽提示詞。

底模選擇:Lora 模型的煉制需要借助對(duì)應(yīng)的大模型(checkpoint),即底模。目前的底模大體上可以分為 SD1.5 和 SDXL 兩個(gè)系列,目前雖然 SD3 已經(jīng)上線, 但其他配套的模型尚未成熟,故不在本次的介紹范圍之內(nèi)。

而 SD1.5 和 SDXL 這兩個(gè)系列的區(qū)別目前僅在與生成圖片的效果, 一般來說 SDXL 系列的模型生成效果會(huì)更好。但是 SD1.5 系列的 Lora 模型適配的相關(guān)插件會(huì)更加全面。

以生成 3D 圖標(biāo)的 Lora 模型為例,目前線上專注于 3D Icon 的底模一般采用 BDicon 和 DDicon 這兩個(gè)模型,如下所示:

只要三分鐘,讓你快速掌握 SD-Lora 模型煉制的基礎(chǔ)知識(shí)

當(dāng)然,不是所有的主題都能找到對(duì)應(yīng)的底模。如果沒有完全對(duì)應(yīng)的底模的話,可以使用基礎(chǔ)模型,即 SD1.5 基礎(chǔ)模型和 SDXL 基礎(chǔ)模型。

參數(shù)選擇:相關(guān)參數(shù)分為基礎(chǔ)參數(shù)和高級(jí)參數(shù),大部分時(shí)候只需要調(diào)整基礎(chǔ)參數(shù)的單張次數(shù)「Repeat」 和 循環(huán)輪次「Epoch」就能獲得很不錯(cuò)的效果。重復(fù)率越高,人工智能就能更好的讀懂圖片,但實(shí)訓(xùn)中,重復(fù)過高會(huì)導(dǎo)致過擬合,也就是學(xué)習(xí)過頭,對(duì)圖片認(rèn)知固化,失去發(fā)散的能力。且需要更高的算力,更多時(shí)間。 相關(guān)參數(shù)的調(diào)整規(guī)則如下:

  1. Repeat 重復(fù)常規(guī)建議訓(xùn)練參數(shù):10-15
  2. Epoch 常規(guī)建議訓(xùn)練參數(shù):10-15

模型效果預(yù)覽提示詞:在模型訓(xùn)練時(shí),選擇準(zhǔn)確的提示詞能達(dá)到事半功倍的效果。我們通常選擇相對(duì)簡(jiǎn)單的預(yù)期效果的正向提示詞(Prompt),因?yàn)檫@里的提示詞生成的預(yù)覽圖的效果基本會(huì)和模型的訓(xùn)練效果相關(guān)。

只要三分鐘,讓你快速掌握 SD-Lora 模型煉制的基礎(chǔ)知識(shí)

一般來說,預(yù)覽效果和數(shù)據(jù)集的特征一致,且樣式正常,可以做為 Lora 模型的訓(xùn)練成功的標(biāo)準(zhǔn)之一。

三、打標(biāo)簽

在用戶上傳訓(xùn)練模型所需圖片之后,需要設(shè)置裁剪方式、裁剪尺寸、打標(biāo)算法、打標(biāo)閾值和模型觸發(fā)詞。裁剪方式和打標(biāo)閾值采用默認(rèn)即可。

  1. 裁剪方式:按需選擇;
  2. 裁剪尺寸:按照模型對(duì)應(yīng)圖片尺寸設(shè)定;
  3. 打標(biāo)閾值:可選擇默認(rèn)值。

在 LoRA 煉制過程中,模型觸發(fā)詞的編寫非常重要。模型觸發(fā)詞是指在訓(xùn)練或使用 LoRA 模型時(shí),用于激活或控制模型行為的關(guān)鍵詞或短語。這些觸發(fā)詞在模型訓(xùn)練過程中起著關(guān)鍵作用,能夠幫助模型更好地理解和生成特定內(nèi)容。

例如,在 Stable Diffusion 模型中,觸發(fā)詞如“full body, chibi”可以激活特定的 Lora 效果,從而生成相應(yīng)的圖像。如果使用不當(dāng),可能會(huì)導(dǎo)致模型無法正確響應(yīng),從而影響最終的效果。

1. 觸發(fā)詞的編寫方法

打標(biāo)簽的時(shí)候會(huì)以觸發(fā)詞為開頭,其余的部分根據(jù)圖片中的元素特征來分別標(biāo)注。

① 使用不存在的單詞:

在編寫觸發(fā)詞時(shí),建議使用一個(gè)目前不存在的單詞,這樣可以避免與現(xiàn)有詞匯沖突,從而確保模型的正確響應(yīng)。

② 結(jié)合具體場(chǎng)景:

觸發(fā)詞最好結(jié)合具體的使用場(chǎng)景和需求來編寫,確保模型能夠準(zhǔn)確理解并執(zhí)行相應(yīng)的操作。例如,在生成特定風(fēng)格的圖像時(shí),可以使用描述該風(fēng)格的觸發(fā)詞。

③ 避免常見詞匯:

觸發(fā)詞應(yīng)避免使用常見的詞匯,以免與模型的默認(rèn)設(shè)置或已有功能沖突,影響模型的響應(yīng)效果(建議拼音或縮寫)。

2. 打標(biāo)簽注意點(diǎn):

① 標(biāo)注目標(biāo)與原則:

明確標(biāo)注:標(biāo)注者專注于為圖像中可變的、受外部條件影響的特征打標(biāo)簽,如本例中的 “衣服特征”,因?yàn)檫@些特征是模型需要學(xué)習(xí)以區(qū)分不同情境下的同一對(duì)象的關(guān)鍵。

不標(biāo)注固有特征:對(duì)于對(duì)象自身固有的、不變的特征,如“plum”(假設(shè)這是一個(gè)虛構(gòu)人物 或角色)的“棕色頭發(fā)”和“短發(fā)”,這些是該對(duì)象的獨(dú)有身份標(biāo)識(shí),它們不隨環(huán)境或情境變 化,模型應(yīng)該在學(xué)習(xí)過程中自動(dòng)關(guān)聯(lián)這些特征與特定觸發(fā)詞(如“plu”)。

② 模型學(xué)習(xí)目標(biāo):

學(xué)會(huì)關(guān)聯(lián)觸發(fā)詞與固有特征:模型應(yīng)當(dāng)通過訓(xùn)練學(xué)會(huì),當(dāng)遇到“plu”這樣的觸發(fā)詞時(shí),自動(dòng) 聯(lián)想并識(shí)別出“plum”具有的固有特征,如“棕色”和“短發(fā)”。

排除非固有特征:通過不標(biāo)注這些固有特征,模型被引導(dǎo)去理解“plu”不可能對(duì)應(yīng)到“黑色 長(zhǎng)發(fā)”或其他不符合“plum”身份的發(fā)型,即“plu”等同于“棕色短發(fā)”等特定特征集合。

③ 訓(xùn)練黃金法則:

未標(biāo)注即內(nèi)在獨(dú)有特:如果某個(gè)特征沒有被特意作為標(biāo)簽給出,那么模型應(yīng)當(dāng)視其為對(duì)象的不可變屬性,是模型應(yīng)當(dāng)通過學(xué)習(xí)自行關(guān)聯(lián)到觸發(fā)詞的身份標(biāo)識(shí)。

只要三分鐘,讓你快速掌握 SD-Lora 模型煉制的基礎(chǔ)知識(shí)

完成上述步驟后點(diǎn)擊「開始訓(xùn)練」,即可開始模型訓(xùn)練。

怎么來評(píng)價(jià)一個(gè) lora 模型煉制的好壞呢?

從個(gè)人角度來看,生出來的圖像能夠滿足自己的預(yù)期就是好的 lora 模型,好的模型能夠適應(yīng)多種任務(wù)和場(chǎng)景,具有較高的多用途性和兼容性。

當(dāng)然也可以從客觀的角度,觀察在煉制過程中的 loss 值,一個(gè)好的模型的 Loss 值應(yīng)當(dāng)呈現(xiàn)一個(gè)較為平滑的下降曲線。但 Loss 值并不是唯一的評(píng)價(jià)標(biāo)準(zhǔn),還需要結(jié)合其他指標(biāo)和實(shí)際效果來綜合評(píng)價(jià)。

結(jié)束

本次分享內(nèi)容是訓(xùn)練一個(gè)高質(zhì)量的 SD-Lora 模型的核心。但這只是開始。接下來我們將深入探討模型訓(xùn)練的其他參數(shù)對(duì)訓(xùn)練結(jié)果的影響,以及模型的調(diào)優(yōu)技巧,敬請(qǐng)期待!

收藏 56
點(diǎn)贊 35

復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。