大家好我是花生~
還有幾天 2023 年就結(jié)束了,過去的 1 年里生成式 AI 技術(shù)發(fā)展迅速,出現(xiàn)了很多優(yōu)質(zhì)的 AI 工具,今天就為大家盤點(diǎn)其中我覺得非常不錯(cuò)的那些產(chǎn)品~
相關(guān)推薦:
① ChatGPT
過去 1 年是大語言模型發(fā)展的井噴之年,但是說起目前最強(qiáng)大的 AI 聊天機(jī)器人,卻依舊是 1 年前橫空出世的 ChatGPT。ChatGPT 的目前內(nèi)置的是 GPT-4V 多模態(tài)模型,可以處理圖像、音頻等多種類型的信息,性能也比之前的 GPT-3.5 要好。今年 ChatGPT 還出了手機(jī) APP,可以實(shí)現(xiàn)語音交互,支持中英等多種語言,對(duì)用戶來說使用更便捷。
ChatGPT 還在今年推出了插件(Plugins)功能,賦予其使用工具、聯(lián)網(wǎng)、運(yùn)行計(jì)算的能力,讓 ChatGPT 的能力有了進(jìn)一步的擴(kuò)大和提升。而 11 月份推出的 GPTs 則更進(jìn)一步,讓用戶能夠按需要定制 AI 工具來輔助自己完成任務(wù)。GPTs 還可以互相分享,我們可以直接使用別人構(gòu)建好的 AI 工具,目前也有很多 GPTs 資源網(wǎng)站可以使用。
② Bard
Google Bard 目前內(nèi)置了最新的原生多模態(tài)大模型 Gemini Pro,這是谷歌歷史上最強(qiáng)大、最通用的模型,可以吸收任何類型的輸入和輸出,包括文本、代碼、視頻、音頻和圖像。對(duì)我們普通用戶來說,Bard 的獲取便捷度要比 ChatGPT 好很多,還是免費(fèi)的,作為 ChatGPT 的平替來使用非常不錯(cuò)。
③ 文心一言
百度在今年 10 月份的時(shí)候發(fā)布了文心大模型 4.0,與原來的基礎(chǔ)模型相比在理解、生成、邏輯和記憶能力上都有著顯著提升,并且也有插件功能?!耙谎园賹毾洹敝杏泻芏?AI 小工具,可以幫用戶直接解決各種類型的問題,而像考公資料、寫教案、寫黨政報(bào)道這樣的特色功能則只有中文大語言模型里才能找到,這也是國(guó)產(chǎn)模型相比國(guó)外模型的優(yōu)勢(shì)。
④ Microsoft Copilot
Copilot 其實(shí)就是之前的微軟 New Bing Chat,今年 11 月份改為了 Copilot。它目前依舊集成在 Edge 瀏覽器中,內(nèi)置的是 GPT-4 模型,并支持調(diào)用 DALL·E 3 生成圖像。當(dāng)我們?cè)跒g覽器搜索框內(nèi)輸入問題進(jìn)行搜索后,AI 自動(dòng)總結(jié)好的好答案,鼠標(biāo)滾輪上劃能看完整內(nèi)容和信息的來源,還能切換不同的模式與 AI 進(jìn)行對(duì)話,日常用來查找信息非常方便。
⑤ Perplexity
問 AI 聊天機(jī)器人問題時(shí),我們最擔(dān)心的一點(diǎn)就是它會(huì)“胡編亂造”,給我們錯(cuò)誤的信息,而 Perplexity AI 可以解決這個(gè)問題。
Perplexity 準(zhǔn)確來說是一個(gè) AI 驅(qū)動(dòng)的搜索引擎,利用 GPT-4 模型,綜合最新的信息(包括新聞、學(xué)術(shù)、視頻等)為用戶提供準(zhǔn)確、權(quán)威的答案,并且還會(huì)附上答案的引用源,方便用戶檢驗(yàn)信息是否正確,還支持識(shí)別圖像和上傳文檔。它的界面設(shè)計(jì)非常簡(jiǎn)潔,交互高效并具有成沉浸感,月訪問量曾一度躋身所有網(wǎng)頁(yè) AI 應(yīng)用的前 10,僅次于 Midjourney 和 Huggingface。
⑥ Poe
Poe 之前專門給大家推薦過了,它目前接入的大語言模型包括 GPT-4、Claude、Gemini Pro、Llama 2 等,還支持調(diào)用 AI 繪畫模型 Dalle 3 和 Stable Diffusion XL,還有很多其他小工具可以使用,相當(dāng)于是一個(gè) AI 工具拼盤。
① Stable Diffusion WebUI / Fooocus / ComfyUI
去年的 12 月份時(shí) Midjourney 已經(jīng)是 V4 模型了,圖像生成質(zhì)量和清晰度大幅提升,一躍成為當(dāng)時(shí)最受矚目的 AI 繪畫工具,而 Stable Diffusion 還處于 v2.1 版本,圖像生成效果并不好。時(shí)隔一年,現(xiàn)在 Stable Diffusion 的出圖質(zhì)量與 Midjourney 已經(jīng)沒有那么大的差距了,這主要得益于 Dreambooth/ Lora 這些技術(shù)的出現(xiàn),還有就是新模型 Stable Diffusion XL 1.0 的發(fā)布。
過去的一年里 Stable Diffusion 的生態(tài)也進(jìn)一步發(fā)展完善,高質(zhì)量的開源模型不斷涌現(xiàn),我們可以選擇的圖像風(fēng)格越來越豐富;開源插件更是極大地拓寬了 Stable Diffusion 的能力,提高了圖像生成的可控性和處理效率,讓其成為目前平面、建筑、游戲等設(shè)計(jì)領(lǐng)域的首選 AI 工具。
Stable Diffusion 目前最受歡迎的三種用戶操作界面分別是 Stable Diffusion WebUI、Fooocus 和 ComfyUI。
Stable Diffusion WebUI 最早出現(xiàn),界面也最通用好理解,一鍵整合包的出現(xiàn)進(jìn)一步降低了它的使用門檻,讓它成為目前普及率最高的開源 AI 繪畫軟件;基于 WebUI 開發(fā)的各種拓展插件也是目前最豐富的,所以它能處理的圖像任務(wù)種類最多、效率也最高,這讓 WebUI 成為新手學(xué)習(xí) Stable Diffusion 首先要掌握的界面 ,想全面系統(tǒng)學(xué)習(xí)的小伙伴也可以解我最新制作的 《零基礎(chǔ) AI 繪畫入門指南》 ,可以幫你快速高效地掌握 WebUI 這個(gè)熱門工具 ~
ComfyUI 則是節(jié)點(diǎn)式的工作界面,它其實(shí)也出現(xiàn)得很早,不過界面不及 WebUI 方便好用,早期生態(tài)也不夠完善,所以一直不怎么受關(guān)注。
而隨著拓展插件的豐富和 SDXL 模型的出現(xiàn),ComfyUI 的優(yōu)勢(shì)也逐漸出來。它生成圖像的速度更快,對(duì)硬件的要求更低,處理 SDXL 模型的效率比 WebUI 更高;模塊化形式讓用戶可以自己搭建工作流并隨時(shí)復(fù)用,會(huì)編程的話還可以自己編寫模塊和節(jié)點(diǎn),以此滿足特殊或者定制化的需求。ComfyUI 相比 WebUI 來說更靈活專業(yè),但是上手難度也更大,需要掌握 Stable Diffusion 的各種原理才能熟練運(yùn)用。
Fooocus 是今年 8 月份推出的操作界面,它使用的是 Stable Diffusion 的開源模型,交互方式借鑒則是 Midjourney。Fooocus 的界面非常簡(jiǎn)單,用戶可以專注在提示詞和圖像上,無需進(jìn)行復(fù)雜的參數(shù)設(shè)置就能生成高質(zhì)量圖像,安裝也很簡(jiǎn)單,所以很適合沒有復(fù)雜處理需求的用戶。Fooocus 目前還支持墊圖、局部重繪、外繪擴(kuò)展、高清放大、生成變體等多種功能。
② Midjourney
Midjourney 今年的更新升級(jí)也非常密集,推出過 V5、V5.1、V5.2、Niji 5 等版本,讓其圖像生成質(zhì)量始終處理領(lǐng)先地位;也接連上線了 Zoom out 圖像拓展外繪、High Variation 高變體、Describe 圖像描述、Shorten 提示詞優(yōu)化、Vary Region 局部重繪、Styler Tuner 風(fēng)格生成器等功能,滿足用戶編輯圖像和探索風(fēng)格的需求。
Stable Diffusion XL 1.0、Dalle 3 還有各種新的 AI 繪畫工具的接連出現(xiàn)也一度給了 Midjourney 不小的壓力,不過前幾天它又推出了新的 V6 版本,圖像的細(xì)節(jié)精細(xì)度達(dá)到令人驚嘆的水平,對(duì)提示詞的理解也更準(zhǔn)確,還支持生成正確的英文文本內(nèi)容,這讓 Midjourney 在 AI 繪畫領(lǐng)域依舊非常有競(jìng)爭(zhēng)力。
Midjourney v1 到 v6 出圖效果對(duì)比,來源 Twitter @doganuraldesign
③ Adobe Firefly / PS beta
Adobe 在 4 月份的時(shí)候推出了自己的 AI 圖像生成模型 Firefly,支持文生圖、文生字體特效、局部重繪等多種功能,還將這些功能置入到了 Photoshop Beta 測(cè)試版中,讓設(shè)計(jì)師可以借助 AI 的力量更高效地完成設(shè)計(jì)工作。
10 月份的時(shí)候 Firefly Image Model 升級(jí)到了 2.0 版本,圖像生成質(zhì)量比之前有了進(jìn)一步提升,還支持人像調(diào)節(jié)、墊圖、鏡頭調(diào)色設(shè)置等多種功能,還有 Firefly Vector Model,支持通過文字生成矢量圖像,相信未來 Adobe 旗下的工具肯定會(huì)在 AI 的加持下更加好用。
④ DALL·E 3
OpenAI 的 DALL·E 算是元老級(jí)別的 AI 繪畫工具了,最早的 DALL·E 1 在 2021 年 1 月的時(shí)候就出現(xiàn)了;DALL·E 2 在 2022 年 4 月份推出,以一張“宇航員騎著白馬”的清晰圖像啟發(fā)了人們對(duì) AI 繪畫的認(rèn)知。雖然技術(shù)一直走在前沿,不過 OpenAI 對(duì)其商業(yè)化這一塊很好像并不重視,所以知名度并不如其他 AI 繪畫工具。
雖然如此,9 月份 DALL·E 3 發(fā)布時(shí)依舊引起過廣泛關(guān)注,一方面是它對(duì)文本的理解遠(yuǎn)超當(dāng)時(shí)的其他 AI 繪畫模型,可以準(zhǔn)確理解并呈現(xiàn)復(fù)雜提示詞中的所有元素,包括元素間的關(guān)系和文本內(nèi)容;另一方便則是它和 ChatGPT 結(jié)合帶來的新交互方式,用戶直接用語言描述自己的需求,ChatGPT 會(huì)自動(dòng)理解它并拆分生成任務(wù),而無需用鼠標(biāo)進(jìn)行復(fù)雜的設(shè)置。從在某種程度上來說,ChatGPT 里的 DALL·E 3 才是最好用的 DALL·E 3。
⑤ Krea AI
AI 繪畫在今年的一大技術(shù)進(jìn)步就是出現(xiàn)了 LCM,可以一步完成圖像推理,讓圖像的生成時(shí)間縮短了 6-10 倍,并由此開啟了“實(shí)時(shí)生成”這種新的 AI 繪畫形式,Krea AI 就是最早將其商業(yè)化的應(yīng)用。而隨著 LCM 和 SDXL Turbo 模型的開源,我們也可以在本地體驗(yàn)這種超快的生成速度,或者在 ComfyUI 中自己搭建圖像實(shí)時(shí)生成的工作流。
有了實(shí)時(shí)生成,我們可以在畫板上控制畫面的元素、構(gòu)圖、配色,再結(jié)合提示詞將其轉(zhuǎn)化為完整精致的圖像,并調(diào)整修改內(nèi)容,這比在 WebUI 中重新生成或者局部重繪要高效很多,對(duì)電商、產(chǎn)品、電影、游戲概念等設(shè)計(jì)領(lǐng)域來說具有重要意義。
① Runway
Runway 無疑是目前最強(qiáng)的視頻生成和編輯應(yīng)用,它既有正常的視頻剪輯功能,也有基于生成式 AI 的各項(xiàng)新功能,包括文生圖、圖生圖、文生視頻、圖生視頻、視頻風(fēng)格化、文本生成語音、一鍵視頻摳圖、視頻內(nèi)容抹除、動(dòng)態(tài)追蹤等。
用 Runway 的 Gen-2 模型生成視頻時(shí),可以調(diào)節(jié)視頻運(yùn)動(dòng)幅度,可以設(shè)置不同的鏡頭運(yùn)動(dòng)方式,還支持用運(yùn)動(dòng)筆刷控制畫面中的運(yùn)動(dòng)區(qū)域,以及視頻進(jìn)行摳圖然后組合生成新的場(chǎng)景,這都讓視頻生成的可控性變得更強(qiáng)了。
② Pika
Pika 算是 AI 視頻生成領(lǐng)域的后起之秀,它也支持通過文本或者圖像生成視頻,也可以控制視頻動(dòng)態(tài)強(qiáng)度和鏡頭運(yùn)動(dòng)方式,總體來說和 Runway 非常類似。最新的 Pika 1.0 則是讓它的功能更上一層樓,不但可以生成高質(zhì)量的 2D/3D 動(dòng)畫,還支持視頻擴(kuò)展(Expand canvas)和區(qū)域修改(Modify region),讓 AI 視頻的趣味性變得更強(qiáng)了。
③ Domo AI
Domo AI 是最近才出現(xiàn)的一個(gè) AI 視頻生成應(yīng)用,功能包括文生圖、圖像風(fēng)格轉(zhuǎn)化、圖像生成視頻和視頻風(fēng)格轉(zhuǎn)換。由于它將真人視頻轉(zhuǎn)化為動(dòng)漫、3D、像素等風(fēng)格時(shí)非常穩(wěn)定,效果比目前其他的 AI 視頻工具都優(yōu)秀,所以非常受歡迎。
④ Heygen
前段時(shí)間郭德綱用英語說相聲的視頻讓 Heygen 爆火出圈,作為一個(gè)數(shù)字人視頻生成工具,Heygen 不僅有可以在神態(tài)上以假亂真的數(shù)字人形象,還提供了從人物選擇、內(nèi)容制作到配音、視頻合成等一整套的服務(wù),讓營(yíng)銷視頻的制作變得前所有的簡(jiǎn)單和高效。視頻對(duì)口型無痕翻譯則是其新推出的功能,給傳統(tǒng)視頻翻譯和影視制作帶來了一種新的處理思路。
用 Heygen 生成的數(shù)字人短視頻
⑤ 開源AI視頻工具
除了各種商業(yè) AI 視頻應(yīng)用外,我們也可以利用開源工具或模型在本地實(shí)現(xiàn)視頻生成,目前比較受歡迎的有 Animatediff 和最新推出的 Stable Video Diffusion。
大家在網(wǎng)上看到的“一個(gè)女孩的一生”或者人物變裝的視頻, 就是用 Animatediff 生成的。Animatediff 是一個(gè)拓展插件,可以安裝在 SD WebUI 或者 ComfyUI 中,實(shí)現(xiàn)文本生成視頻或者視頻轉(zhuǎn)風(fēng)格。
Stable Video Diffusion 則是 Stability AI 最新推出的視頻模型,可以通過 ComfyUI 部署到到本地使用,免費(fèi)將圖像轉(zhuǎn)為視頻。
⑥ 開源AI音頻工具
生成式 AI 技術(shù)也可以幫我們實(shí)現(xiàn)音頻的生成或處理,比如通過文本生成自然語音(TTS)、聲音克隆、通過文本生成音樂音效等,其中既有商業(yè)應(yīng)用,也有可以部署到本地使用的開源的工具。
ElevenLabs 是目前比較成熟的商業(yè) AI 語音生成應(yīng)用,功能包括文本生成逼真自然語言以及克隆語音。而相似功能開源的工具則非常多,包括 so-vits-svc (聲音克?。?、Bert-VITS2、網(wǎng)易易魔聲(文本轉(zhuǎn)語音)等。
之前還大家推薦過 6 款 AI 音樂生成工具,包括 Stable Audio、Soundraw、Suno AI 等,它們都可以生成高質(zhì)量的音樂、音效以及歌曲。最近還出現(xiàn)了一個(gè)開源工具 Amphion,可以免費(fèi)實(shí)現(xiàn)文本轉(zhuǎn)語音、語音克隆、文本生成音樂以及歌聲合成。
AI 模型也促進(jìn)了細(xì)分領(lǐng)域里 AI 工具的發(fā)展。比如有了大語言模型后,就催生了很多如 AI 簡(jiǎn)歷生成器、AI 寫作工具,AI 翻譯器,AI PPT 生成工具這樣的細(xì)分應(yīng)用。這里推薦一個(gè)我使用頻率非常高的 AI 翻譯工具——沉浸式翻譯,它可以實(shí)現(xiàn)網(wǎng)頁(yè)雙語對(duì)照翻譯,還支持在 YouTube、Netflix、Bilibili 等網(wǎng)站上顯示雙語字幕,對(duì)需要經(jīng)??从⑽木W(wǎng)頁(yè)的小伙伴非常有用。
AI 在 3D 模型領(lǐng)域也有不錯(cuò)的進(jìn)展。比如 Luma AI 可以通過視頻快速重建 3D 場(chǎng)景;Genie 可以通過文本生成高精度的 3D 模型,并導(dǎo)入其他 3D 軟件中進(jìn)行再次編輯;最近還出現(xiàn)了一個(gè) Stable Zero123 的模型,支持從單張圖像生成高質(zhì)量的 3D 對(duì)象。
在 Genie 中用文本生成的 3D 模型
還有之前已經(jīng)給大家推薦過很很多次的 AI 圖像處理工具,比如綜合圖像處理網(wǎng)站 Clipdrop、一鍵摳圖網(wǎng)站 Pixian AI、免費(fèi)的圖像高清放大工具 Upscayl 等,有意識(shí)地運(yùn)用這些 AI 工具可以讓我們更輕松地完成重復(fù)性的工作。
Clipdrop 包含是多種圖像處理工具
那么以上就是本期為大家推薦的 2023 年 AI 神器,希望對(duì)大家有幫助 ~ 文章內(nèi)提到的工具我我都整理成了一份文檔,大家可以掃描下方二維碼進(jìn)群領(lǐng)取鏈接,也可以和群里的小伙伴們一起學(xué)習(xí)交流 AI 知識(shí)。
喜歡本期推薦的話記得點(diǎn)贊收藏支持一波,也可以分享給身邊有需要的朋友。如果像了解更多 AI 神器,大家可以訪問 「優(yōu)設(shè) AIGC 導(dǎo)航」 ,200 多款 AI 繪畫、設(shè)計(jì)、圖像處理神器等你探索。另外大家也可以關(guān)注我們「優(yōu)設(shè) AIGC」的 微信 視頻號(hào),小瓜老師每天都會(huì)分享最新的 AIGC 資訊和神器,讓你輕松掌握最新的 AI 發(fā)展動(dòng)態(tài) ~
推薦閱讀:
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。
熱評(píng) Young