大家好,我是言川。
最近 OpenAI 上線了 GPT-4o 模型的生圖功能,這個(gè)消息也是刷爆了朋友圈和各大社媒平臺(tái)。
這次更新的影響力,我認(rèn)為堪比春節(jié)期間發(fā)布的 Deepseek R1 模型。特別是在設(shè)計(jì)圈,一片“哀鴻遍野”。究其原因還是在于 GPT-4o 模型的生圖能力不僅是改變了傳統(tǒng)設(shè)計(jì)流程,可能也顛覆了現(xiàn)如今主流的 AI 生圖工作流。
基礎(chǔ)介紹:
今天,想跟大家分享下我的使用體驗(yàn),以及 GPT-4o 在生圖領(lǐng)域的應(yīng)用場景。在文章后面,我也會(huì)淺談下它與現(xiàn)如今主流的 AI 圖像模型(Diffusion model)之間的區(qū)別,幫助大家客觀、理性地看待 AI 技術(shù)。畢竟,有許多的媒體/博主為了流量,非常努力的渲染焦慮......
這篇文章將延續(xù)我一貫的深入風(fēng)格,從基礎(chǔ)介紹和使用方法開始,逐步深入。
非常感謝你愿意花時(shí)間閱讀我的文章,讓我們開始吧。
1. GPT-4o 模型介紹
GPT-4o 是由 OpenAI 開發(fā)的一款多模態(tài)大型語言模型,于 2024 年 5 月 13 日正式發(fā)布。?其中,4o中的“o”代表“Omni”,強(qiáng)調(diào)其全能的多模態(tài)能力。
那多模態(tài)模型是啥?
指的是能夠同時(shí)處理文本、圖像和音頻輸入,并生成相應(yīng)的輸出。例如,之前我教過大家如何利用 AI 文本生成工具,通過圖像反推生成提示詞。
反之,多模態(tài)模型也能通過提示詞生成圖片。
但是,它所生成的圖像效果是遠(yuǎn)遠(yuǎn)不如 Midjourney、StableDiffusion 等主流圖像模型的。
直到 2025 年 3 月 26 日,OpenAI 更新了 GPT-4o 的圖像生成功能,使其多模態(tài)模型的圖像生成能力達(dá)到了與 Midjourney、StableDiffusion 等圖像模型相媲美,甚至在某些方面超越它們的水平。
2. 4o 圖像生成的特點(diǎn)
OpenAI 官方發(fā)布了一篇 GPT-4o 圖像生成的介紹
地址: https://openai.com/index/introducing-4o-image-generation/
接下來我分享給大家的介紹,也是引用 OpenAI 這篇文章中的案例。
GPT-4o 圖像生成的特點(diǎn)主要包括六類:文本渲染、多輪生成、遵循指令、情境學(xué)習(xí)、世界知識(shí)、真實(shí)風(fēng)格。
① 文本渲染
GPT-4o 能夠準(zhǔn)確生成圖像中的文本內(nèi)容,支持制作包含文字的圖像,如菜單、邀請(qǐng)函和信息圖等。
② 多輪生成
用戶可以通過多輪對(duì)話調(diào)整和優(yōu)化生成的圖像細(xì)節(jié),GPT-4o 能夠理解并執(zhí)行復(fù)雜的指令,確保生成的圖像符合用戶的具體需求。
③ 遵循指令
GPT-4o 模型能夠精確遵循用戶的指令,生成符合要求的圖像,即使在復(fù)雜的場景和細(xì)節(jié)中也能保持一致性。
④ 情境學(xué)習(xí)
GPT-4o 能夠理解上下文信息,將其融入圖像生成過程中,確保生成的圖像與對(duì)話內(nèi)容或提供的提示詞高度相關(guān)。
⑤ 世界知識(shí)
GPT-4o 模型具備豐富的世界知識(shí),能夠生成包含復(fù)雜文本的商業(yè)級(jí)圖像,如菜單、信息圖表和徽標(biāo)等
⑥ 真實(shí)風(fēng)格
GPT-4o 支持多種藝術(shù)風(fēng)格的轉(zhuǎn)換,從寫實(shí)照片到插圖等,能夠生成具有真實(shí)感的圖像,捕捉細(xì)致的紋理和光影效果。
提示詞:“這是一張狗仔隊(duì)偷拍的照片,照片中卡爾·馬克思匆匆走過美國購物中心的停車場,他回頭張望,臉上露出驚愕的表情,試圖避開鏡頭。他手里抓著多個(gè)裝滿奢侈品的閃亮購物袋。他的外套在風(fēng)中飄揚(yáng),其中一個(gè)購物袋擺動(dòng)著,仿佛他正在邁步。背景模糊,有汽車,購物中心入口發(fā)光,以強(qiáng)調(diào)運(yùn)動(dòng)。相機(jī)閃光燈的眩光使圖像部分曝光過度,給人一種混亂的小報(bào)感覺?!?/p>
提示詞:“逼真的水下場景,海豚從廢棄地鐵車廂的窗戶間游過,氣泡和細(xì)致的水流模擬準(zhǔn)確。”
提示詞:“水果碗照片,由真實(shí)水果和微型行星(木星、土星、火星、地球)混合而成,保持與原始照片一致的真實(shí)反射、燈光和陰影,構(gòu)圖清晰,紋理真實(shí),細(xì)節(jié)渲染清晰?!?/p>
通過上面的介紹和舉例,想必大家對(duì) GPT-4o 生圖能力有了一定的了解。
下面介紹下如何使用。
1. 使用條件
ChatGPT 地址: https://chatgpt.com/
注:需要特定的網(wǎng)絡(luò)才可以打開。
GPT-4o 模型的圖像生成功能目前對(duì)訂閱賬號(hào)開放,部分免費(fèi)賬號(hào)在灰度測試階段也可使用。
但多數(shù)賬號(hào)應(yīng)該是沒有的,你可以通過 ChatGPT 的對(duì)話輸入框來查看。
例如,我的未訂閱賬號(hào)顯示的是“DALL·E”,表明尚未包含在灰度測試中。
注:DALL·E 是 OpenAI 研發(fā)的圖像生成模型,屬于擴(kuò)散模型(Diffusion model)。
GPT-4o 模型最新的生圖功能,正確的顯示狀態(tài)如圖:
未訂閱的賬號(hào)即時(shí)被灰度測試到,但使用生圖功能時(shí),有次數(shù)限制(每天最多可生成三張圖像)。
如果你想順暢的使用,還是需要訂閱會(huì)員,Plus 版即可(20$)。
2. 使用方式
GPT-4o 生圖的使用方式非常簡單,通過簡短的自然語言指令即可生成圖像。
但我們還是可以將生圖的方式分為兩種:提示詞生成(文生圖)、圖像加提示詞生成(圖生圖)。
需要注意的是,GPT-4o 生圖時(shí)會(huì)有內(nèi)容限制,包括禁止生成有害內(nèi)容、去除水印、知名 IP、模仿在世藝術(shù)家的作品,以及生成色情內(nèi)容和兒童不當(dāng)圖像等。
① 提示詞生成(文生圖)
兩步操作,首先點(diǎn)擊“創(chuàng)建圖像”,然后輸入提示詞。
提示詞:“生成一張圖像,展示權(quán)力的游戲中的丹妮莉絲·坦格利安與指環(huán)王中的精靈王子萊戈拉斯在冰雪覆蓋的森林中并肩行走?!?/p>
從生成的圖像結(jié)果來看,GPT-4o 在遵循提示詞和圖像真實(shí)效果方面,表現(xiàn)不遜于 Flux 模型。
說實(shí)話,我第一次在大語言模型上體驗(yàn)到這種高質(zhì)量的圖片生成,很震驚。
再來測試下插畫風(fēng)格。
提示詞:“畫一張插畫,內(nèi)容是魷魚游戲的迷宮般的階梯,梵高的風(fēng)格?!?/p>
生成的結(jié)果還不錯(cuò),但我打算繼續(xù)與它對(duì)話,測試它的“多輪對(duì)話”能力。
提示詞:“將這張梵高風(fēng)格的插圖,放在游戲王游戲的卡牌中,要滿星級(jí)的卡片。”
它能夠理解并準(zhǔn)確生成游戲王卡片、滿星級(jí)的圖像,OpenAI 這波更新屬實(shí)牛逼,它幾乎能滿足我們各種要求。
但真正有可能改變現(xiàn)有 AI 圖像生成工作流、顛覆市面上幾乎所有 AI 圖像工具的,是圖生圖能力。
② 圖像+提示詞生成(圖生圖)
兩個(gè)步驟,上傳圖像(可多張),然后加入提示詞指令描述。
通過提示詞描述,將上傳圖轉(zhuǎn)換不同的風(fēng)格,比如,提示詞:“將這張圖片轉(zhuǎn)換為插畫風(fēng)格?!?/p>
或者是,非常明確的提出轉(zhuǎn)換某種特定的風(fēng)格,比如:“將這張圖片轉(zhuǎn)換為 3D 毛絨風(fēng)格?!?/p>
還可以通過上傳多張圖片,讓 GPT-4o 將圖片中的各個(gè)元素組合成一張圖。
比如提示詞:“將襯衫和短褲穿在馬斯克身上?!?/p>
當(dāng)我們知道了 GPT-4o 的生圖能力之后,就能想象出各種應(yīng)用場景。
接下來的板塊,是我參考了全網(wǎng)優(yōu)秀的案例,花了 3 天時(shí)間測試出來的結(jié)果。雖然這些內(nèi)容可能不夠全面,但希望它們能為你的學(xué)習(xí)和參考提供價(jià)值。
為了更系統(tǒng)的梳理和展示這些應(yīng)用場景,我將生圖的場景分為兩大類,分別是圖像設(shè)計(jì)和圖像編輯。
1. 圖像設(shè)計(jì)
圖像設(shè)計(jì)主要包含風(fēng)格轉(zhuǎn)繪、風(fēng)格遷移、角色設(shè)計(jì)、草圖轉(zhuǎn)繪、模特?fù)Q裝、產(chǎn)品合成、室內(nèi)設(shè)計(jì)和字體設(shè)計(jì)這 8 種類型。
① 風(fēng)格轉(zhuǎn)繪
指將一種特定的藝術(shù)風(fēng)格應(yīng)用到已有的圖像上,從而將其轉(zhuǎn)換成該風(fēng)格的視覺表現(xiàn)。
提示詞:“將這張畫像切換成寫實(shí)人像風(fēng)?!?/p>
提示詞:“將這張圖片中的角色,轉(zhuǎn)換為 3D 毛絨風(fēng)格,保持角色姿勢(shì)不變?!?/p>
提示詞:“將這張圖片中的表情包,轉(zhuǎn)換為 3D 毛絨風(fēng)格?!?/p>
② 風(fēng)格遷移
與轉(zhuǎn)繪是一個(gè)意思,這里的風(fēng)格遷移指的是通過參考圖片,遷移到指定圖像中。
提示詞:“將第一張圖片中的圖標(biāo),轉(zhuǎn)換為第二張圖片中的圖標(biāo)風(fēng)格,3D 建模質(zhì)感?!?/p>
提示詞:“將第二張圖片的風(fēng)格遷移到第一張圖片中,第一張圖片中的人物姿勢(shì)保持不變?!?/p>
③ 角色設(shè)計(jì)
先玩?zhèn)€角色遷移,將指定角色替換到另一個(gè)場景中,并讓該角色代替原場景中的角色,保持角色的特征和風(fēng)格。
提示詞:“將第一張圖片中的角色,替換到第二張圖片中,3D 風(fēng)格?!?/p>
角色三視圖設(shè)計(jì)。
提示詞:“根據(jù)這張圖片中的角色,生成三視圖,正面、側(cè)面和背面,保持角色風(fēng)格和細(xì)節(jié)不變?!?/p>
④ 草圖轉(zhuǎn)繪
將簡單的草圖或素描轉(zhuǎn)化為精細(xì)的繪畫作品。在 AIGC 時(shí)代,草圖繪制的細(xì)節(jié)、風(fēng)格主要由 Prompt 控制。
提示詞:“請(qǐng)為這幅中國古代建筑風(fēng)格的線稿上色。建筑部分使用溫暖的紅色和金色,屋頂可用傳統(tǒng)的深綠色或深藍(lán)色調(diào),搭配一些金色的裝飾。背景的山脈和樹木可以用淡雅的綠色、棕色和灰色來表現(xiàn),水面則使用深藍(lán)和淺藍(lán)的漸變色,石塊和植物使用自然的土色系,如灰色、棕色、綠色等,整體色調(diào)應(yīng)柔和而具有傳統(tǒng)中國畫的藝術(shù)感?!?/p>
草圖換繪還可以結(jié)合風(fēng)格遷移生圖。
提示詞:“ 將第一張的人物線稿圖上色,參考第二張圖的畫風(fēng)?!?/p>
提示詞:“根據(jù)這張 web 設(shè)計(jì)的手繪草圖,生成一張?jiān)蛨D。”
提示詞:“根據(jù)這張?jiān)蛨D,生成一張 UI 圖,需要填充圖片和文字,有 UI 圖落地的效果?!?/p>
⑤ 模特?fù)Q裝
通過 AI 技術(shù)將不同的服裝、配飾等元素應(yīng)用到模特身上,生成新的穿搭效果。
提示詞:“將第二張圖中的衣服,穿到第一張模特身上?!?/p>
提示詞:“將這雙 AJ 鞋穿在模特腳上,畫面只展示鞋子部分。”
提示詞:“將圖中的模特上衣?lián)Q成紅色的,但要確保上衣細(xì)節(jié)保持一致,圖片中的其他元素保持不變。”
⑥ 產(chǎn)品合成
通過產(chǎn)品精修和產(chǎn)品場景合成兩步,利用 AI 自動(dòng)優(yōu)化產(chǎn)品圖像細(xì)節(jié)并將其與合適的背景結(jié)合。
產(chǎn)品精修——提示詞:“精修圖片中的耳機(jī)?!?/p>
產(chǎn)品替換——提示詞:“將第二張圖中的耳機(jī),替換第一張圖中的耳機(jī)”
產(chǎn)品合成——提示詞:“將第二張圖的耳機(jī),合成到第一張場景圖中?!?Logo、光影、產(chǎn)品局部細(xì)節(jié)處還原度不高。
換一種方式,僅通過提示詞描述合成。
提示詞:“將這款黑金色的 Beats 耳機(jī)放置在一個(gè)現(xiàn)代科幻風(fēng)格的展示平臺(tái)上,背景是充滿未來感的藍(lán)色科技環(huán)境,燈光從頂部照射下來,突出耳機(jī)的金屬質(zhì)感和細(xì)節(jié),場景應(yīng)當(dāng)有光滑的金屬質(zhì)感和發(fā)光的虛擬線條,展示出耳機(jī)在未來科技世界中的位置,充滿科技感與未來感?!?/p>
光影融合比較自然了,但產(chǎn)品局部細(xì)節(jié)仍然存在于原圖不符的情況。
人像合成——提示詞:“請(qǐng)將圖中的耳機(jī)穿戴在一位亞洲男模特的頭部?!?/p>
⑦ 室內(nèi)設(shè)計(jì)
通過提示詞描述,讓 AI 根據(jù)指定場景進(jìn)行裝修設(shè)計(jì)。
提示詞:“請(qǐng)為這間現(xiàn)代化的公寓房間進(jìn)行裝修設(shè)計(jì),現(xiàn)代簡約風(fēng)格裝修,淺灰色墻壁,淺木地板,窗臺(tái)上放置綠植,搭配一張舒適的沙發(fā)和簡約的茶幾?!?/p>
換一種方式,通過指定的物品,讓 AI 生成室內(nèi)空間圖。
提示詞:“幫我生成一張室內(nèi)設(shè)計(jì)圖,并將我上傳的沙發(fā)、茶幾、植物、地毯圖融合在室內(nèi)空間中。整體設(shè)計(jì)色調(diào)溫暖且簡潔,搭配大面積的自然光?!?/p>
⑧ 字體設(shè)計(jì)
AI 模型越來越會(huì)寫文字了,借助多模態(tài)大語言模型的能力,即使是中文,GPT-4o 也能很好的理解并生成。
提示詞:“將第一張圖的字體特效遷移到第二張圖中?!?/p>
提示詞:“根據(jù)這張圖的字體風(fēng)格,幫我設(shè)計(jì)“言川真棒” 的標(biāo)題字體?!?/p>
2. 圖像編輯
① 人物換臉
通過 AI 技術(shù)將一張圖像中的人物面部特征替換為另一人物的面部,從而生成新的面部表情或形象。
提示詞:“將第二張圖,克里斯汀·斯圖爾特 的臉部換到第一張圖中?!?/p>
那么,同樣的思路,用換臉技術(shù)生成證件照。
提示詞:“將第二張圖人物的面部,換到第一張證件照中?!?/p>
② 圖像擴(kuò)展
利用 AI 技術(shù)對(duì)原有圖像進(jìn)行邊緣延伸或場景拓展,生成一個(gè)連貫且符合原始風(fēng)格的新區(qū)域。
提示詞:“ 擴(kuò)展這張圖片,保留原有的街道和建筑風(fēng)格?!?/p>
提示詞:“擴(kuò)展這張圖片,16:9 比例的橫圖。”
③ 照片修復(fù)
利用 AI 技術(shù)對(duì)老舊、損壞或缺失部分的照片進(jìn)行修復(fù),自動(dòng)修復(fù)損壞區(qū)域、恢復(fù)細(xì)節(jié),并改善圖像的清晰度和色彩。
提示詞:“將這張老照片變成彩色。”
提示詞:“修復(fù)這張老照片,并上色?!?/p>
④ 局部重繪
指在圖像中選擇特定區(qū)域進(jìn)行重新繪制或修復(fù),通過 AI 技術(shù)對(duì)該區(qū)域進(jìn)行細(xì)節(jié)的重構(gòu)、增強(qiáng)或改變,從而改善圖像的視覺效果或替換不需要的元素,同時(shí)保持整體畫面的連貫性。
測試下來發(fā)現(xiàn),結(jié)果并不理想。雖然說 GPT-4o 能按照我的指令修圖,但會(huì)改變?cè)静恍枰薷牡脑亍?/p>
提示詞:“刪掉圖中的女人,保持畫面中的其他細(xì)節(jié)不變?!?/p>
提示詞:“刪掉圖中不必要的元素(比如人、電動(dòng)車等),保留圖片中的場景?!?/p>
⑤ 背景摳除
通過 AI 技術(shù)或圖像處理工具,將圖像中的人物、物體或其他主體從背景中分離出來。
提示詞:“將圖片中的產(chǎn)品從背景中摳出來,保持產(chǎn)品形態(tài)不變,生成 PNG 格式的透明產(chǎn)品圖?!?/p>
通過上面的展示你可能不確信真的是 PNG 透明圖,我把生成的頁面放出來。
提示詞:“將圖片中的車從背景中摳出來,保持產(chǎn)品形態(tài)不變,生成 PNG 格式的透明產(chǎn)品圖。”
但有個(gè)問題,GPT-4o 還是會(huì)在圖像處理時(shí),改變?cè)矬w中的其他細(xì)節(jié)。比如車標(biāo)、Ultra 字母等。
提示詞:“將圖片中的人物從背景中摳出來,保持產(chǎn)品形態(tài)不變,生成 PNG 格式的透明產(chǎn)品圖。”
毛發(fā)摳除的效果其實(shí)算是不錯(cuò)的了,但人物會(huì)發(fā)生改變,無解......
提示詞:“將這張圖中的杯子摳出來,確保它的透明度清晰可見,保持杯子的細(xì)節(jié)和透明質(zhì)感,去除背景和任何附加元素,生成 PNG 格式的透明產(chǎn)品圖?!?/p>
透明的玻璃杯,杯身的透明材質(zhì)依舊無法摳除。
看完 GPT-4o 生成的案例后,我想給大家分享,或者是說淺談下 GPT-4o 生圖的技術(shù)。
疊個(gè)甲,OpenAI 并未在本次的更新中發(fā)布 GPT-4o 生圖能力的技術(shù)實(shí)現(xiàn)路徑,我也只能通過閱讀網(wǎng)上其他博主分享的內(nèi)容來寫,如果說明有誤,請(qǐng)大家及時(shí)指出。然后,輕點(diǎn)噴......
首先,GPT-4o 的圖像生成功能采用了“自回歸模型 ”,與傳統(tǒng)的“擴(kuò)散模型”有所不同。所以,我們還得從它們的介紹開始說起。
1. 擴(kuò)散模型
擴(kuò)散模型的核心思想是通過逐步加入噪聲,使數(shù)據(jù)逐漸變得模糊,再通過逆過程從噪聲中恢復(fù)出原始數(shù)據(jù)。
擴(kuò)散模型的生成過程可以分為兩個(gè)階段:
- 正向擴(kuò)散(添加噪聲):從原始數(shù)據(jù)開始,逐步加入噪聲,使數(shù)據(jù)變得越來越模糊,直到最終變成純?cè)肼暋?/li>
- 逆向擴(kuò)散(去噪):模型學(xué)習(xí)如何從噪聲中恢復(fù)出原始數(shù)據(jù),這個(gè)過程類似于去噪的過程,最終生成新的數(shù)據(jù)。
我們熟知的 Stable Diffusion、Midjourney、DALL·E 等都是基于擴(kuò)散模型的圖像生成模型。
2. 自回歸模型
GPT-4o 的生圖功能依賴于自回歸模型,通過理解自然語言的語義和上下文信息,將這些信息轉(zhuǎn)化為圖像生成的條件輸入。
自回歸模型通過逐步像素生成圖像的方式,從每一個(gè)已生成的像素推測下一個(gè)像素,直到完整的圖像生成。
另外,GPT-4o 是一個(gè)多模態(tài)大語言模型,利用多模態(tài)學(xué)習(xí)技術(shù),結(jié)合了文本和圖像數(shù)據(jù),允許模型同時(shí)處理和生成圖像和文本。
通過一張表格來說明 GPT-4o 生圖與擴(kuò)散模型的區(qū)別:
總結(jié)一下:
GPT-4o 生圖主要依賴自回歸模型,能夠通過語言模型結(jié)合圖像生成。它生成的圖像通常非常準(zhǔn)確地與文本描述匹配。擴(kuò)散模型則通過噪聲的添加和去噪的過程生成圖像,能夠生成更高質(zhì)量、細(xì)節(jié)豐富的圖像,但生成過程相對(duì)較慢。
那大家看完以上內(nèi)容后,想必你心中對(duì) GPT-4o 有了相應(yīng)的結(jié)論,或者說評(píng)價(jià)。
本篇內(nèi)容因?yàn)槭俏覍懙?,所以由我來?dāng)大家的嘴替,至于對(duì)不對(duì),你也可以在評(píng)論區(qū)留言,我們互相探討下。
1. GPT-4o 的優(yōu)點(diǎn)
① 優(yōu)點(diǎn)一:文本渲染能力
GPT-4o 是一個(gè)多模態(tài)大語言模型,憑借著大語言模型龐大的數(shù)據(jù)量,能夠生成多種文字,并且依靠多模態(tài)技術(shù),能將這些文字生成圖像,這是擴(kuò)散模型比擬不了的(主要體現(xiàn)在數(shù)據(jù)量上)。
② 優(yōu)點(diǎn)二:提示詞遵循度
GPT-4o 能夠準(zhǔn)確地理解復(fù)雜的文本指令,并將其轉(zhuǎn)化為具體的圖像生成任務(wù)。與傳統(tǒng)的圖像生成模型不同,GPT-4o 能夠處理帶有多重要求的指令,準(zhǔn)確把握每個(gè)細(xì)節(jié)。
③ 優(yōu)點(diǎn)三:上下文感知能力
GPT-4o 能夠理解并利用對(duì)話上下文和用戶提供的視覺線索,生成與上下文高度一致的圖像,使得多輪對(duì)話中的圖像生成保持連貫性和一致性。
④ 優(yōu)點(diǎn)四:多樣的風(fēng)格表達(dá)
GPT-4o 模型支持多種藝術(shù)風(fēng)格的圖像生成,而這些風(fēng)格數(shù)據(jù),也來源于大語言模型。而在擴(kuò)散模型中,需要單獨(dú)訓(xùn)練特定的風(fēng)格 Lora 或 微調(diào) Checkpoint 大模型。
2. GPT-4o 的缺點(diǎn)
① 缺點(diǎn)一:圖像裁剪問題
在生成圖像時(shí),GPT-4o 會(huì)出現(xiàn)裁剪不當(dāng)?shù)那闆r,而且無法準(zhǔn)確的控制圖像尺寸生成。
② 缺點(diǎn)二:模型幻覺問題
GPT-4o 在生成圖像時(shí),可能會(huì)出現(xiàn)與現(xiàn)實(shí)不符的細(xì)節(jié),即模型幻覺(大語言模型的通病)。這種情況可能導(dǎo)致圖像中出現(xiàn)不真實(shí)或不一致的元素,影響生成內(nèi)容的可信度。
③ 缺點(diǎn)三:高結(jié)合問題
處理包含多個(gè)元素的復(fù)雜場景時(shí),GPT-4o 可能在將不同對(duì)象和特征緊密結(jié)合方面遇到困難,導(dǎo)致生成的圖像缺乏協(xié)調(diào)性和一致性。
④ 缺點(diǎn)四:密集信息問題
當(dāng)圖像包含大量密集信息時(shí),GPT-4o 可能難以準(zhǔn)確呈現(xiàn)所有細(xì)節(jié),導(dǎo)致部分內(nèi)容模糊或缺失,影響圖像的完整性和可讀性。
⑤ 缺點(diǎn)五:原始圖像變形問題
在編輯或生成圖像時(shí),GPT-4o 會(huì)對(duì)原始圖像進(jìn)行修改(100%),非常典型的例子,就是人像摳圖了。
⑥ 缺點(diǎn)六:生成速度問題
由于生成高質(zhì)量圖像需要大量計(jì)算資源,GPT-4o 的生成速度可能較慢,尤其在高負(fù)載情況下,生成一張圖片可能耗時(shí)較長,非常影響體驗(yàn)。
⑦ 缺點(diǎn)七:數(shù)據(jù)安全問題
GPT-4o 在生成圖像過程中可能涉及使用大量數(shù)據(jù),包括用戶提供的參考圖像。這可能引發(fā)數(shù)據(jù)隱私和安全問題,特別是當(dāng)生成內(nèi)容包含敏感信息時(shí)。
⑧ 缺點(diǎn)八:IP 版權(quán)限制生成問題
有許多 IP 角色、人物的生成會(huì)有限制,會(huì)出現(xiàn)無法生成的情況,自由度不如 StableDiffusion 高。雖然這也是對(duì)版權(quán)和原創(chuàng)性的保護(hù),但用起來總是不那么順暢。
那本篇文章就先分享到這,說說我對(duì) OpenAI 這波更新的看法吧。
首先,GPT-4o 圖像生成的技術(shù)絕對(duì)是目前 AI 圖像領(lǐng)域的一次革新。在次之前,大家都在卷擴(kuò)散模型,但其實(shí)每次擴(kuò)散模型的更新迭代都只是在圖像效果上表現(xiàn)出色,比如 Midjourney V4 到 V6 模型。
并沒有像這次自回歸模型技術(shù)有顛覆性的變化,因?yàn)樗耆蚱屏藬U(kuò)散模型極其復(fù)雜的工作流,比如 ComfyUI 工作流?,F(xiàn)在只需要一句提示詞就能做到老照片修復(fù)、產(chǎn)品精修、模特?fù)Q裝等等圖像效果。
我在 2023 年其實(shí)就表達(dá)過一個(gè)觀點(diǎn),StableDiffusion 這種復(fù)雜的生圖流程在未來一定會(huì)被取代。因?yàn)?AIGC 時(shí)代,AI 最主要的作用就是簡化人類的工作,將標(biāo)準(zhǔn)化的人工流程用 AI 替代。因?yàn)?AI 是程序,給它足夠的計(jì)算資源就能永不休止的工作。
而 StableDiffusion 雖說能兼顧大部分商業(yè)生圖場景,但太復(fù)雜了,盡管能優(yōu)化傳統(tǒng)工作流,能降本增效,但其實(shí)不是特別明顯,AI 生產(chǎn)的內(nèi)容需要大量的人工成本進(jìn)行修正。
很顯然,GPT-4o 這種在圖像生成領(lǐng)域的自回歸模型做到了,盡管它現(xiàn)在仍然不那么完美,仍然需要人工后期修正。但對(duì)比復(fù)雜的 ComfyUI 工作流,又能極大的簡化工作流程。
那么問題來了,我們還要不要學(xué)習(xí)擴(kuò)散模型,也就是 Midjourney、StableDiffusion。
我的回答是,肯定要學(xué)。
在我們的會(huì)員社群,大家調(diào)侃的說:“再不學(xué)就不用學(xué)了......”
為什么我會(huì)這么說呢?
非常刺痛的一個(gè)點(diǎn),就是數(shù)據(jù)安全問題。GPT 模型會(huì)學(xué)習(xí)我們上傳的文本信息、圖像信息,這對(duì)許多公司而言是不能被允許的,而 StableDiffusion 是本地部署的,不會(huì)存在這種問題。
還有各種自定義編輯問題,比如圖像裁剪、特殊的風(fēng)格、原始圖像的穩(wěn)定性等等,雖然 GPT-4o 能生成高質(zhì)量圖像,也很聽話,但商業(yè)級(jí)的圖像質(zhì)量水平和對(duì)圖像的細(xì)節(jié)控制,還遠(yuǎn)遠(yuǎn)不夠,我們只能說它的綜合能力很強(qiáng)。
很顯然,當(dāng)下最合適的商業(yè)級(jí)生圖場景的模型,或者說工具,仍然是 StableDiffusion。雖然我上面說它很復(fù)雜、學(xué)習(xí)成本也比較高,甚至是未來會(huì)被其他技術(shù)取代。
而這次的事件,也會(huì)加速圖像模型的研發(fā)進(jìn)度,2024 年圖像模型真的太安逸了......
無論是以前的擴(kuò)散模型,還是現(xiàn)如今的自回歸模型,都會(huì)在這次的行業(yè)震動(dòng)下,再次卷起來!落后就要挨打,我非常期待 4 月份 Midjourney V7 模型的發(fā)布,也期待 StableDiffusion 繼續(xù)迭代。
最后,大家現(xiàn)在使用 GPT-4o 會(huì)存在許多限制,比如網(wǎng)絡(luò)、會(huì)員、生成速度等等問題。但不要著急,按照行業(yè)慣性,可能馬上,國內(nèi)的字節(jié)、騰訊、阿里等大廠就會(huì)出類似的功能(自回歸模型,不是現(xiàn)在用的擴(kuò)散模型技術(shù))。當(dāng)然,DeepSeek 或許能繼續(xù)開源。
以上這段分享,純屬是我個(gè)人觀點(diǎn)。
AI 時(shí)代下,誰也不能準(zhǔn)確的判斷和預(yù)測未來會(huì)發(fā)展到何種地步,唯一可確定的是,AIGC 將會(huì)是未來主流的發(fā)展趨勢(shì)。
而我們,要成為一名終身學(xué)習(xí)者,以理性、客觀的心理來應(yīng)對(duì)未來行業(yè)的變化,切勿因?yàn)槟炒渭夹g(shù)的迭代,而產(chǎn)生焦慮、恐懼的情緒。否則,我們或?qū)⒊蔀?AI 發(fā)展趨勢(shì)下的“受害者”。
感謝你的閱讀,希望本篇文章對(duì)你有所幫助,我們下期內(nèi)容再見。
如果你想學(xué)習(xí) AIGC,可以加入我主理的《優(yōu)設(shè) AI 俱樂部》,俱樂部內(nèi)沉淀有 2000+ 優(yōu)質(zhì) AI 學(xué)習(xí)資料,涵蓋 AI 繪畫、AI 視頻、AI 提示詞、AI 工具庫、AI 商業(yè)設(shè)計(jì)案例、研究報(bào)告......
也可以點(diǎn)擊鏈接: https://wx.zsxq.com/group/15288828142182
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。
發(fā)評(píng)論!每天贏獎(jiǎng)品
點(diǎn)擊 登錄 后,在評(píng)論區(qū)留言,系統(tǒng)會(huì)隨機(jī)派送獎(jiǎng)品
2012年成立至今,是國內(nèi)備受歡迎的設(shè)計(jì)師平臺(tái),提供獎(jiǎng)品贊助 聯(lián)系我們
AI輔助海報(bào)設(shè)計(jì)101例
已累計(jì)誕生 726 位幸運(yùn)星
發(fā)表評(píng)論 為下方 27 條評(píng)論點(diǎn)贊,解鎖好運(yùn)彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評(píng) ↓