熱評(píng) 馮小喵

越來越好了

Stability AI 又出新模型 DeepFloyd !AI設(shè)計(jì)海報(bào)指日可待了

大家好,這里是和你們一起探索 AI 繪畫的花生~

4 月份的時(shí)候給大家介紹了 Stability AI 新推出新模型 Stable Diffusion XL,它的參數(shù)是 SD v2.1 的 2.5 倍,整體圖像生成質(zhì)量也比 v2.1 要好很多。不到半個(gè)月時(shí)間,Stability AI 又推出了一個(gè)新的文本到圖像模型 DeepFloyd IF,今天我們就繼續(xù)看看這個(gè)新模型的功能。

DeepFloyd IF

DeepFloyd 官網(wǎng): https://deepfloyd.ai/

DeepFloyd IF 模型試玩: https://huggingface.co/spaces/DeepFloyd/IF

DeepFloyd 是 Stability AI 旗下的多模態(tài) AI 研究實(shí)驗(yàn)室,這次的 IF 模型就是由 DeepFloyd 研發(fā)的。據(jù)官方介紹,DeepFloyd IF 是最新最先進(jìn)的開源文本-圖像模型,擁有強(qiáng)大的語言理解能力,生成的圖像具有高度真實(shí)感。從其官網(wǎng)展示了圖像來看,DeepFloyd IF 生成的圖像質(zhì)量非常不錯(cuò),也能處理多種不同的風(fēng)格效果。

Stability AI 又出新模型 DeepFloyd !AI設(shè)計(jì)海報(bào)指日可待了

DeepFloyd IF 生成的圖像,圖片內(nèi)容來源:DeepFloyd 官網(wǎng)

上面的這些圖像也體現(xiàn)了 DeepFloyd IF 另外的 2 項(xiàng)優(yōu)勢 —— 能在圖像中生成連貫清晰的文本,以及理解不同對(duì)象的屬性和空間關(guān)系。比如它可以正確地將文字呈現(xiàn)在路牌、紙片、包裝外殼等規(guī)定的媒介內(nèi);能理解文本之間的連續(xù)關(guān)系,將不同的字母或數(shù)字按順序呈現(xiàn)在不同的物體上;以及分清圓球是金屬的,三角形是毛茸茸的,不會(huì)將不同物體的屬性弄混。

我用同一組提示詞在 Stable Diffusion XL、DeepFloyd IF 和 Midjourney 中分別進(jìn)行了測試,結(jié)果見下圖。可以看到 SD XL 雖然顯示了文字,但是文字內(nèi)容并不準(zhǔn)確,也沒有有突出文字的主體位置,顯然是模型對(duì)文本的理解能力有限;Midjourney 生成圖像質(zhì)量很高,但是文字部分是錯(cuò)的;DeepFloyd IF 對(duì)文字內(nèi)容和涂鴉風(fēng)格把握都很準(zhǔn)確,整體效果最好。

Stability AI 又出新模型 DeepFloyd !AI設(shè)計(jì)海報(bào)指日可待了

推特上也有很多網(wǎng)友利用 DeepFloyd IF 成功生成各種具有清晰文字內(nèi)容的圖像,說明 IF 模型的這項(xiàng)功能的非常穩(wěn)定。

Stability AI 又出新模型 DeepFloyd !AI設(shè)計(jì)海報(bào)指日可待了

內(nèi)容來源: https://twitter.com/deepfloydai

DeepFloyd 還在官網(wǎng)上展示了 IF 模型與其他的模型的效果對(duì)比,包括 OpenAI 的 DALLE·2、Google 的 Imagen 和 Parti,以及 Stability AI 自己的 Stable Diffusion v2.1。從對(duì)比圖可以看出 DeepFloyd IF 的圖像生成質(zhì)量并不遜于其他模型,在語言理解方面方面甚至表現(xiàn)更好,比如在和 DALLE·2 的對(duì)比圖中,IF 模型可以更好地理解“a handpalm 一只手掌”這個(gè)概念。

Stability AI 又出新模型 DeepFloyd !AI設(shè)計(jì)海報(bào)指日可待了

DeepFloyd IF 與其他模型的對(duì)比

與 Stable Diffusion、DALLE·2 等模型不同的是,DeepFloyd IF 是一個(gè)由凍結(jié)文本編碼器和三個(gè)級(jí)聯(lián)像素?cái)U(kuò)散模塊組成的。三個(gè)擴(kuò)散模塊分別為一個(gè)基于文本提示生成 64x64 像素圖像的基本模型,和兩個(gè)超分辨率模型。

Stability AI 又出新模型 DeepFloyd !AI設(shè)計(jì)海報(bào)指日可待了

也就是說使用一般的繪畫工具 ,我們直接就能生成一張 512*512px 或者 1024*1024px 的分辨率圖像,而 DeepFloyd IF 則是先生成一張 64*64px 的基礎(chǔ)圖像,然后再通過兩個(gè)超分辨率模型對(duì)其進(jìn)行分辨率提升。這一點(diǎn)在 DeepFloyd IF 試玩 Demo 中也體現(xiàn)了出來:輸入提示詞后,會(huì)先得到一個(gè)模糊的 64*64px 的圖像,然后選擇“Upscale”進(jìn)行放大,才會(huì)得到一個(gè) 1024x1024 px 的信息圖像。這個(gè)特點(diǎn)讓 IF 模型在生成基礎(chǔ)圖像時(shí)速度比一般模型快很多, 圖像生成效率更高。

Stability AI 又出新模型 DeepFloyd !AI設(shè)計(jì)海報(bào)指日可待了

除了根據(jù)文本提示生成圖像,DeepFloyd IF 還有一個(gè)根據(jù)圖像生成類似圖像的功能,整個(gè)過程也非常有意思。DeepFloyd IF 會(huì)先將原圖縮減至 64 px,通過正向擴(kuò)散添加一定程度的噪聲,然后在逆向擴(kuò)散過程中使用新文本提示對(duì)圖像進(jìn)行去噪,從而實(shí)現(xiàn)圖像到圖像的轉(zhuǎn)換。這樣以保留原圖的基礎(chǔ)構(gòu)圖、色彩等信息,然后再根據(jù)文本提示,生成不同樣式、風(fēng)格和細(xì)節(jié)的圖像。

DeepFloyd IF 還有 Super Resolution 和 Inpainting 功能。Super Resolution 即提升畫面的分辨率,前面提到過 IF 模型本身就自帶 2 個(gè)超分辨率模型,而對(duì)于并非由 IF 生成的圖像,也可以用 IF 模型進(jìn)行放大。Inpainting 則是通過涂抹修改圖像局部內(nèi)容,且修改后的內(nèi)容能與原畫面的風(fēng)格保持一致。

Stability AI 又出新模型 DeepFloyd !AI設(shè)計(jì)海報(bào)指日可待了

DeepFloyd IF 目前沒有正式的應(yīng)用,只在 Huggingface 上提供了一個(gè)試玩 Demo,感興趣的朋友可以戳下面的鏈接試一試。DeepFloyd IF 模型及生成的內(nèi)容目前不可商用,僅供研究使用。團(tuán)隊(duì)目前在開放收集關(guān)于 IF 模型的反饋意見,之后會(huì)發(fā)布一個(gè)完全免費(fèi)的商業(yè)兼容版本。

DeepFloyd IF 模型試玩: https://huggingface.co/spaces/DeepFloyd/IF

DeepFloyd IF 模型的出現(xiàn)意味著 AI 繪畫的可控性得到了進(jìn)一步的提升,特別是在能生成連貫準(zhǔn)確的文字內(nèi)容這方面,讓 AI 繪畫工具在未來可以在設(shè)計(jì)領(lǐng)域有更廣泛得的應(yīng)用,比如生成具有準(zhǔn)確文字的圖片素材、具有特殊效果的字體設(shè)計(jì),甚至是進(jìn)行準(zhǔn)確地排版。本期文章封面的配圖就是用 DeepFloyd IF 生成的,你覺得 DeepFloyd IF 還會(huì)哪些其他的發(fā)揮它的優(yōu)勢呢?歡迎在評(píng)論區(qū)分享你的看法~

推薦閱讀:

贊賞
收藏 30
點(diǎn)贊 54

復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。