大家好,這里是和你們一起探索 AI 繪畫的花生~
Midjourney 的 v6 模型終于在 2023 年結(jié)束之前更新出來了,這是一個完全重新訓(xùn)練的模型,所以圖像生成效果與之前的 v5.2 相比有很大的不同,那么此次更新主要有哪些特點?我們又應(yīng)該如何正確地用 v6 模型出圖呢?今天就帶大家一起了解一下~
上期回顧:
首先是 V6 的圖像生成質(zhì)量相比之前的模型來說又提升了不少,在畫面質(zhì)感以及細(xì)節(jié)刻畫上有了更精致的表現(xiàn),圖像的光影處理也比 v 5.2 更真實自然。下面是分別用 v5.2 和 v6 生成的特寫圖像,通過對比可以看出 v6 的細(xì)節(jié)更銳利明確,不像 v5.2 那樣有種灰蒙蒙的感覺。
另一個更重要的改進(jìn)是 v6 模型對文本提示詞的理解。一方面是 v6 模型可以理解更長的文本提示了,提示詞容量達(dá)到了 350-500 個詞,而 v5.2 中超過三十個詞后,提示詞就不起作用了;另一方面是 v6 對語義的理解也更準(zhǔn)確,它可以正確呈現(xiàn)提示詞內(nèi)提到所有元素,以及元素的顏色、位置以及互相之間關(guān)系。v6 還支持自然語言描述,所以提示詞不要需要全部都用短語,這都讓我們可以更輕松準(zhǔn)確地生成自己想要的內(nèi)容。
我們來看幾組提示詞,感受一下 V6 在語義理解上的進(jìn)步。
首先是有關(guān)“雙重曝光”主題的圖像,提示詞比較簡單“Side view of a woman, giant flower, double exposure, surreal photography 女人側(cè)影、巨型花朵、雙重曝光、超現(xiàn)實攝影”,通過對比可以看出 v6 對雙重曝光的理解更準(zhǔn)確,而 v5.2 的圖像只是一個攝影作品,沒有體現(xiàn)出雙重曝光的特效。
之前我嘗試在 Midjourney 中生成“一個男孩飄在空中,一只手向前伸出”這樣的指定動作,嘗試了很多次效果都不太好,這次用 v6 試了一下,生成指定動作的成功率要比 v5.2 高不少,同時人物整體的姿態(tài)也更自然了。
然后是對于復(fù)雜提示詞的理解。我特意在提示詞寫了很多物體,包括木頭桌子,白色的花瓶、黃色的玫瑰、紅色的碗,還有多種水果,并描述了它們之間的位置關(guān)系。從生成結(jié)果來看,v5.2 沒有準(zhǔn)確呈現(xiàn)碗的顏色,在提示詞中位置靠后的蘋果、藍(lán)莓這些元素也都丟失了;而 v6 則準(zhǔn)確地生成了不同顏色的物體,位置關(guān)系正確,也沒有出現(xiàn)元素丟失的情況。
A photo-realistic photo of a wooden table with a white vase with yellow roses. Next to it is a red bowl with lemons and apples, with some blueberries scattered around the side of the bowl. Next to the table is a white window. --ar 2:3
這是一張木桌的寫實照片,桌上放著一個白色花瓶,里面插著黃玫瑰。旁邊是一個紅色的碗,碗里有檸檬和蘋果,碗邊散落著一些藍(lán)莓。桌子旁邊是一扇白色的窗戶。--ar 2:3
V6 模型還有一個重大進(jìn)步——支持生成準(zhǔn)確的英文文本內(nèi)容,操作方法是在寫提示詞的時候,用英文的雙引號將文字內(nèi)容括起來,比如「a neon sign with text “UISDC”」。生成文字內(nèi)容時,最好選擇 style raw 模式,或者設(shè)置較低的 stylize 值,因為 stylize 過高會導(dǎo)致文本內(nèi)容扭曲。
除了新的 v6 模型,Midjourney 其他的參數(shù)和命令功能也有對應(yīng)的調(diào)整。
首先是對于 v6 模型來說,--ar、--chaos、--weird、--tile、--stylize、--style raw、Vary(subtle/strong)、Remix、/blend 這些參數(shù)和命令是可以正常使用的,但是 pan、zoom out、vary region、/tune 等功能則要晚一點才上線,并且性能上也會進(jìn)行優(yōu)化。 /describe 目前也可以使用,但之后會有一個 v6 的新版本推出。
V6 版本的圖像放大選項則是變成了 Upscale(Subtle) 和 Upscale(Creative),二者都可以將將一張圖像放大 2 倍,區(qū)別在于 Subtle 放大的圖像會與原圖非常相似,只在細(xì)節(jié)上會有細(xì)微變化;而 Creative 放大后的圖像則會在細(xì)節(jié)上與原圖有明顯的不同,這個大家按實際需求選擇就可以了。
V6 模型上線后,很多小伙伴都反映說同樣的提示詞 v5.2 和 v6 出來效果完全不同,這是因為 v6 是一個重新訓(xùn)練的模型,它的圖像生成算法與 v5.2 有很大的不同,所以我們需要重新學(xué)習(xí)其提示詞的寫法。
但目前也沒有一套確定的提示詞規(guī)則可以作為參考,因為目前的 v6 是 alpha 測試版,在未來一段時間它的還會發(fā)生一系列的重大變化,所以在完整版確定下來之前,我們只能自己先摸索。我總結(jié)了一些官方以及網(wǎng)友給出的建議,大家可以做為參考:
- v6 模型對提示詞非常的敏感,所以在提示詞中不要使用“安慰劑”詞語,比如“獲獎、逼真、4k、8k”等,它們并不能優(yōu)化圖像質(zhì)量,反而還會干擾畫面內(nèi)容的生成。
- 想生成更真實自然、更偏向?qū)憣崝z影的圖像時,可以使用 --style raw 參數(shù);如果是想生成藝術(shù)感和美學(xué)性更強(qiáng)的圖像,可以調(diào)高 --stylize 的數(shù)值。
- v6 模型對提示詞的理解變得更準(zhǔn)確了,但這也讓它顯得有些“呆板”,因為對于沒有提到的內(nèi)容 v6 都不會呈現(xiàn),不再像 v5.2 模型那樣會自由發(fā)揮。前面我們提到過 v6 的提示詞容量現(xiàn)在變大了,所以對于想要在畫面中呈現(xiàn)的內(nèi)容,如主體、顏色、細(xì)節(jié)、構(gòu)圖、風(fēng)格等,一定要詳細(xì)的描述出來。
- 如果畫面中沒有出現(xiàn)自己想要的內(nèi)容,可以通過一些方法找回,比如檢查是不是遺漏了對應(yīng)的關(guān)鍵詞;將重點詞語移到提示詞靠前的位置;檢查是否有一些不太重要的詞語,將它們移到靠后的位置或者刪除;以及換一種表達(dá)方式,比如將 big 換成 huge/giant,two 換成 a couple 等,讓用詞盡量精準(zhǔn)。
下圖是同一組提示詞分別在 v5.2 和 v6.0 中生成的圖像,二者風(fēng)格差別非常明顯。
A young man and a young woman are checking out for the buying in a shopping center, flat illustration style --ar 10:16
一名年輕男子和一名年輕女子在購物中心結(jié)賬,平面插畫風(fēng)格 --ar 10:16
這是因為對于 v6 模型來說,“ flat illustration style”所指的內(nèi)容太過寬泛了。如果想讓 v6 生成的風(fēng)格貼近 v5.2 的樣式,需要加入一些更具體的風(fēng)格關(guān)鍵詞,比如 UI、極簡、矢量等,此外也可以再優(yōu)化一下提示詞順序,加入一些顏色、服裝等方面的細(xì)節(jié)描述,讓生成的圖像更貼合自己的需要。
那么以上就是為大家總結(jié)的 Midjourney 新版本 v6 的相關(guān)內(nèi)容,后續(xù) v6 應(yīng)該還會有一波大的更新,我也會及時帶大家了解最新的動態(tài)。喜歡本期推薦的話記得點贊收藏支持一波,也歡迎大家掃描下方二維碼,加入優(yōu)設(shè) AI 繪畫交流群,和大家一起學(xué)習(xí) AI 知識。
想系統(tǒng)學(xué)習(xí) Midjourney 的小伙伴也可以了解我最新制作的 《 零基礎(chǔ) AI 繪畫入門指南 》 ,我會帶大家了從零開始學(xué)習(xí) 2 款目前最熱門的 AI 繪畫工具 Midjourney 和 Stable Diffusion WebUI,并提供各種相關(guān)資源,解決大家在自學(xué)時教程不全面、找資源難、有疑問無處請教等情況,幫你快速入門~
推薦閱讀:
復(fù)制本文鏈接 文章為作者獨立觀點不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。
熱評 一只正在上優(yōu)設(shè)的熊貓