團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

一、寫在前面

眾所周知,訓(xùn)練符合特定品牌風(fēng)格的LORA模型存在很多的落地痛點:如高質(zhì)量素材和標(biāo)注門檻高、訓(xùn)練周期長,且風(fēng)格遷移易失準、后期迭代適配成本高,但是我們也知道它具有顯著的應(yīng)用價值,因此,本次雪球LORA模型訓(xùn)練總結(jié)并非單純的經(jīng)驗復(fù)盤,其價值更在于為大家提供 “可參考、可復(fù)用、可落地” 的行動指南。

更多雪球設(shè)計干貨:

以往我們制作雪球資源位視覺圖,需歷經(jīng)建模、渲染、后期三大環(huán)節(jié),單圖需投入1個人力1至2天的工作量。

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

現(xiàn)在基于AIGC技術(shù)訓(xùn)練雪球?qū)俚馁Y源位LORA模型,可在人力成本保持穩(wěn)定的前提下,大幅提升資源位視覺素材的設(shè)計效率與產(chǎn)出速度,進而為業(yè)務(wù)端提供更及時、高效的支持。

二、探索過程

早在2023年,我們就嘗試使用基于Stable Diffusion 1.5架構(gòu)訓(xùn)練的LORA模型來制作雪球視覺圖,旨在解決營銷資源位視覺素材的快速生成問題。但受限于當(dāng)時模型精度不足,生成內(nèi)容存在較多瑕疵,且可控性較弱,該嘗試最終未能持續(xù)推進。

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

隨著F.1模型時代的到來,LibLib平臺涌現(xiàn)出一批基于F.1底模訓(xùn)練的圖標(biāo)LORA模型。應(yīng)用此類模型生成雪球資源位視覺素材時,其質(zhì)量與可控性雖已實現(xiàn)質(zhì)的提升,但仍存在顯著局限:生成內(nèi)容的AI痕跡較重,對雪球品牌屬性的體現(xiàn)不足,圖標(biāo)化特征過于突出。

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

同期,我們亦嘗試采用即夢/可靈的最新模型生成雪球資源位素材。盡管通過隨機抽卡偶爾能得到質(zhì)感較佳的作品,但整體而言,仍存在可控性不足、風(fēng)格難以統(tǒng)一、雪球品牌特征體現(xiàn)薄弱等問題。

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

綜合上述探索與實踐經(jīng)驗的結(jié)果,同時伴隨開戶行情的逐步升溫,構(gòu)建一套雪球?qū)俚囊曈XLORA模型已成為亟待推進的工作。這一模型的落地,將有效提升設(shè)計環(huán)節(jié)的響應(yīng)效率與產(chǎn)出效能,為業(yè)務(wù)需求提供更有力的支撐。

現(xiàn)在,就讓我們來一起訓(xùn)練LORA模型吧~

三、保姆級 LORA 訓(xùn)練教程

訓(xùn)練平臺選用LibLib在線訓(xùn)練方案,其優(yōu)勢在于無需適配特定電腦配置及操作系統(tǒng),僅需網(wǎng)絡(luò)環(huán)境即可運行,同時便于后續(xù)多人協(xié)同使用模型。進入平臺后,參數(shù)設(shè)置方面,新手可直接采用默認配置。對模型效果影響較大的核心參數(shù),主要為打標(biāo)算法的選擇及閾值設(shè)定。

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

1. 訓(xùn)練素材準備

訓(xùn)練啟動前需完成訓(xùn)練素材的預(yù)處理工作。為保障訓(xùn)練效果,所有素材需在尺寸規(guī)格與視覺風(fēng)格上保持統(tǒng)一性與簡約性。這里整理使用了雪球近2年產(chǎn)出的資源位素材。

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

由于后面準備使用F.1的底模來訓(xùn)練,所以推薦使用1024x1024的畫布來準備素材,同時需要注意素材不要使用透明底的PNG圖片。

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

2. 選擇底模

訓(xùn)練素材準備完畢后,在左上角選擇F.1模型(F.1_dev-fp8),然后上傳所有圖片。

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

3. 選擇打標(biāo)算法

圖片上傳完畢后,開始給所有素材進行打標(biāo),目前LibLib中主要有4個自動打標(biāo)算法(僅觸發(fā)詞和無需標(biāo)注皆為空白),這里順便介紹一下每個打標(biāo)算法的特點,方便大家以后根據(jù)自己需求選擇不同的打標(biāo)算法。

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

Blip

基于多模態(tài)混合編碼器-解碼器(MED)架構(gòu),包含圖像編碼器、文本編碼器和解碼器。圖像編碼器使用視覺Transformer,文本編碼器采用BERT類似模型,通過自舉方法提升模型在視覺-語言理解和生成任務(wù)上的性能。

生成的標(biāo)簽文字是比較連貫的自然語言,例如“1個女孩在草地上開心的跳舞”,適合用于圖像存儲庫中基于描述的搜索場景。

主要用于圖像描述生成、視覺問答、圖像-文本檢索等多模態(tài)任務(wù),在處理大規(guī)模真實世界圖像的語義理解和文本生成方面表現(xiàn)較好,但對一些復(fù)雜的圖像識別精度較低,易遺漏細節(jié)特征,生成標(biāo)簽偏向整體描述。

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

Deepbooru

基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類器,利用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,將其轉(zhuǎn)換為可分類的向量,通過大規(guī)模訓(xùn)練數(shù)據(jù)集對模型進行訓(xùn)練,使用反向傳播算法和梯度下降算法優(yōu)化模型。

生成的是詞組標(biāo)簽,如“1個女孩,草地,跳舞,大笑”,更適用于動漫風(fēng)格圖像的標(biāo)注,常用于實際生成圖像描述或標(biāo)簽。

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

LLaVA

它是一種多模態(tài)大模型,通?;赥ransformer架構(gòu),結(jié)合視覺編碼器和大語言模型,通過對大量圖文對數(shù)據(jù)的訓(xùn)練,學(xué)習(xí)圖像和文本之間的關(guān)聯(lián),但它主要不是用于打標(biāo),打標(biāo)更多是其相關(guān)應(yīng)用中的一個環(huán)節(jié),常需結(jié)合其他工具或方法來實現(xiàn)較為準確的打標(biāo)。

打標(biāo)結(jié)果通常與多模態(tài)對話和理解相關(guān),可根據(jù)圖像內(nèi)容和提問生成相應(yīng)的描述性標(biāo)簽或回答,標(biāo)簽內(nèi)容會更側(cè)重于對圖像語義的理解和基于理解的文本輸出,可能涉及更復(fù)雜的場景和語義描述。

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

Joy2

具備較強的圖像內(nèi)容解析能力,能精準識別素材中的核心元素(如主體形態(tài)、色彩層次、構(gòu)圖結(jié)構(gòu)等),反推結(jié)果包含更豐富的細節(jié)描述,對具有統(tǒng)一視覺風(fēng)格的批量素材(如特定品牌調(diào)性的設(shè)計圖)表現(xiàn)出更好的適應(yīng)性,打標(biāo)結(jié)果靈活性和準確性較高,但需注意,有時候它會把不需要的細節(jié)也描述出來(如印章上的字)。

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

根據(jù)以上打標(biāo)算法的特性,Joy2的算法更加符合我們的LORA訓(xùn)練要求。另外,除了選擇打標(biāo)算法外,還有一個打標(biāo)閾值需要注意:

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

簡單來講,閾值越高,精度越高,但是容易漏掉一些細節(jié),閾值越低,包含的內(nèi)容也會越多,但是干擾也會變多,容易生成一些瑕疵。

4. 關(guān)鍵詞細調(diào)

與IP類LORA模型的訓(xùn)練不同,各KV關(guān)鍵描述詞之間的差異性顯著大于其共性特征。因此,在自動打標(biāo)基礎(chǔ)上,最好再通過手動修改的方式對關(guān)鍵詞進行再修正或補充,以確保標(biāo)簽與目標(biāo)特征的匹配精度。

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

調(diào)整完畢后,在左側(cè)模型效果預(yù)覽提示詞處輸入一些測試關(guān)鍵詞,然后點擊開始訓(xùn)練按鈕,即可進行訓(xùn)練,耐心等待后,就可以擁有屬于自己的LORA模型啦。

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

5. 錯誤案例

訓(xùn)練圖片使用了透明底的PNG圖片,會出現(xiàn)摳圖不干凈的情況

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

訓(xùn)練圖片使用了很多不同風(fēng)格的素材(如網(wǎng)圖),訓(xùn)練圖片并不是越多越好,有時候會帶來相反的效果(干擾較多)

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

基于以前低算力的底模,如XL底模訓(xùn)練的LORA,雖然速度快,但識別性很差,瑕疵非常多

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

基于F.1極速版底模訓(xùn)練的LORA,速度比F.1快,但構(gòu)圖、美感、準確度均不如完整版F.1

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

6. 反復(fù)打磨

若對訓(xùn)練完成的LORA模型效果不滿意,可回溯至前期步驟,通過參數(shù)調(diào)整與關(guān)鍵詞優(yōu)化進行多輪迭代。盡管這一過程需投入較多時間成本,但唯有通過持續(xù)打磨與反復(fù)調(diào)試,才能使模型質(zhì)量逐步趨于穩(wěn)定,最終達成更優(yōu)效果。

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

使用新訓(xùn)練的LORA直出的圖片:

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

四、使用方法

模型訓(xùn)練完畢并發(fā)布后,我們就可以通過LibLib首頁上的在線生成入口,來生成新的圖片了(此處僅以Web UI為例)

① 先在界面中輸入關(guān)鍵詞

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

② 在“模型”菜單里,選擇之前發(fā)布的LORA模型

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

③ 之后再點擊生圖返回之前界面,打開高清分辨率修復(fù),并選擇圖片數(shù)量即可點擊“開始生圖”按鈕進行生圖

④ 生成結(jié)果對比

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

高清修復(fù)2048x2048狀態(tài)下,一次生成4張圖,約等待8分鐘

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

不打開高清修復(fù)(默認1024x1024),一次生成4張圖,約等待3分鐘,但復(fù)雜場景的圖片容易出現(xiàn)模型瑕疵。

五、業(yè)務(wù)應(yīng)用

1. 沉淀組件庫

LORA生成的視覺圖,在風(fēng)格與材質(zhì)表現(xiàn)上,和之前建模的形式相比,沒有明顯的差距,甚至質(zhì)感上會更強,只需后期微調(diào)即可完成快速上線,在形成組件庫之后能夠快速應(yīng)用至其它項目中。

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

2.資源位應(yīng)用

借助LORA模型生成組件庫中的視覺素材,無需依賴設(shè)計師即可快速部署至站內(nèi)資源位,同時能夠保障圖片質(zhì)量的穩(wěn)定性。

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

3.H5應(yīng)用

通過LORA模型的加持,也可以在一天內(nèi)完成1套H5(以前需2天完成一套H5),效率提升200%

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

最后

綜上,LORA模型的訓(xùn)練過程并非高難度操作,核心需關(guān)注以下三點:

  1. 素材庫是核心基礎(chǔ):素材的收集環(huán)節(jié)必須嚴格把控質(zhì)量與清晰度,這是從源頭保障LORA訓(xùn)練效果的關(guān)鍵前提。
  2. 參數(shù)設(shè)置需理性適配:不應(yīng)迷信或盲目照搬他人參數(shù)(包括本文提及的數(shù)據(jù)),因素材庫特性、訓(xùn)練目標(biāo)存在差異,需結(jié)合自身場景靈活調(diào)整,他人經(jīng)驗僅作參考。
  3. 迭代測試是進階路徑:新手可先以成功訓(xùn)練出基礎(chǔ)LORA為目標(biāo)建立信心,再逐步嘗試專業(yè)版功能,深入理解各參數(shù)含義,探索具象類與泛化類模型訓(xùn)練的差異,通過持續(xù)試錯來收獲超預(yù)期的效果。

而更本質(zhì)的邏輯在于:需精準定位自身工作中的痛點,并借助AIGC技術(shù)的賦能,實現(xiàn)問題的高效解決

——這才是技術(shù)應(yīng)用的核心價值所在。

歡迎關(guān)注作者的微信公眾號:「雪球設(shè)計中心XDC」

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

團隊實戰(zhàn)復(fù)盤!能讓你立即上手的Lora模型訓(xùn)練指南

收藏 37
點贊 59

復(fù)制本文鏈接 文章為作者獨立觀點不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。