AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

前言

距離上次寫大模型應用的文章已經(jīng)過去了大半年:?

這期間 AI 如火如荼,雖然我個人感知大模型應用生態(tài)并沒有太多變化,但還是想記錄下近期在大模型應用現(xiàn)象上的觀察和淺顯見解。

這篇文章會從 GPTs、大模型中間層(Dify、Coze)、大火的虛擬社交(Character.AI 等)聊到 AI Agent、大模型的多模態(tài)能力、產(chǎn)品推薦,涵蓋了 23 年下半年至今大模型應用領域的最新進展。

一、Chatbot 是自然衍生的產(chǎn)品形態(tài)

1. GPTs

2023 年 11 月的 OpenAI 開發(fā)者大會上,OpenAI 推出了 GPTs,其本質是鼓勵用戶對 ChatGPT 進行 Prompt、數(shù)據(jù)深度定制并分享給社區(qū)中的其他用戶使用(有些 Notion 社區(qū)創(chuàng)作者分享、售賣模板的意思),也減輕其他用戶定制成本。此外,GPTs 配置過程十分簡單,用戶無需擁有代碼能力,只需要定義好需求場景、定義好 Prompt 就可以完成初步定制。而想要 GPTs 更好用,則可以上傳一些知識庫數(shù)據(jù),調用其他產(chǎn)品的 API??傮w來說開發(fā)成本遠低于 APP 和網(wǎng)頁。

分享一個詳細的 GPTs 配置教程:GPTs 從入門、進階、實踐到防護的萬字教程

當視頻在手機上無法加載,可前往PC查看。

開放以來,GPTs 的創(chuàng)建和使用一直受到 GPT Plus 賬戶限制,近期開放的 GPT Store 和市場上的排行網(wǎng)站沒有太大區(qū)別。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

①GPTs 類型

結合了 GPTs 收錄網(wǎng)站的信息,目前的 GPTs 大概有如下幾類。在這些方面,某些 GPTs 確實被定制成了好用的小工具。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

不過,下面才是我想表達的核心觀點:

②面臨的挑戰(zhàn)

沒有創(chuàng)造新的場景,多是在做原有場景的改造

上述網(wǎng)站收錄了 8 萬多個 GPTs,很多需求小眾、場景低頻的,用戶使用可能只是一時圖個新鮮,缺乏持續(xù)使用動力。而真正有需求的場景(如數(shù)據(jù)分析、語言學習、圖像生成、PDF 閱讀等)則同質化嚴重(大家很容易想到一塊去)、競爭激烈。

此外,大多數(shù) GPTs 解決的訴求離大眾消費場景較遠、天花板低,難以形成規(guī)模效應。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

③GPTs 的產(chǎn)品形態(tài)并不占據(jù)絕對優(yōu)勢

GPTs 解決的問題和市面上已經(jīng)在做的各類應用中 AI 助理形態(tài)有一定重合,而 GPTs 給用戶的心理預期則更像是 ChatGPT 中即用即走的「小程序」。若面向大眾消費端,創(chuàng)作者需要將能力進一層封裝,產(chǎn)品形態(tài)上無法和 App Store 中已經(jīng)積累了更多用戶的應用、更易觸達用戶的應用去競爭。

打個比方,同樣是周報生成器,用戶是更愿意使用釘釘、飛書中集成的虛擬助手還是去 GPTs Store 中找到 GPTs 進行使用呢?而應用集成 GPTs 能力只是時間問題。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

圖片引用自 Appso

④很多創(chuàng)作者是去薅流量的

很難想象有多少會持續(xù)優(yōu)化知識庫提供優(yōu)質服務。

⑤GPTs 被復制抄襲的門檻太低

不知道這個問題官方何時會出來解決。

⑥OpenAI 不是唯一一家開放 API 的大模型廠商

除非擁有垂直領域的專業(yè)知識庫和獨家數(shù)據(jù),否則 Bot 的制作并沒有門檻。真要說體驗上會有多大差異,普通大眾感知不會特別強烈,也就是說大部分用戶不會追求產(chǎn)品一定要模型達到 GPT-4 的能力。這就延伸出下面要說的中間層了。

2. 大模型中間層

目前國內比較明星的產(chǎn)品有兩個:Dify 于 23 年 5 月推出,字節(jié) 12 月上線了類似的產(chǎn)品 Coze。這類產(chǎn)品能夠接入多個大模型能力,并通過可視化編排,基于任何 LLM 部署自己版本的 Assistants API 和 GPT。這些產(chǎn)品提供的定制能力是遠遠強于 ChatGPT 的 GPTs 的,目前還有可免費白嫖的 GPT-4 推薦使用。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

①中間層產(chǎn)品價值

降低集成難度。

中間層提供了簡單的 API 接口,開發(fā)者可以通過這些接口輕松地將大模型能力集成到自己的產(chǎn)品中,不需要自己訓練搭建大模型,也不需要處理與大模型交互的復雜度。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

Coze 還支持發(fā)布到多個平臺作為 Bot 能力使用,這在開發(fā)者看來是非常有吸引力的一項功能

接入多個大模型,隔離大模型更新風險。

中間層可以對下游客戶屏蔽大模型版本更新帶來的影響,確保產(chǎn)品穩(wěn)定性。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

提供更多輔助功能。

中間層還可以提供日志、監(jiān)控、數(shù)據(jù)標注等輔助功能,為開發(fā)者提供更多價值。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

②Coze

在 Coze 中可以看到公開的 Bots 及 Bots 的詳細設置:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

圖為一個僅靠 Prompt 和 Plugins 定制的推薦 B 站視頻的 Bot

③定制案例:AI 趨勢總結 Bot

參考 Bilibili Assistant,我想嘗試定制一個能為我總結 AI 領域最新趨勢的 Bot。構建前可以先閱讀 Coze 產(chǎn)品文檔,比如官方給出了 Prompt 的寫法建議:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

首先,填寫創(chuàng)建 Bot 的簡單信息,頭像可以使用 Coze 內置的 AI 能力生成:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

Coze 中有許多已經(jīng)內置好的 Plugins,我在此選擇 Google 和 X 兩個 Plugins:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

按照官方建議撰寫 Prompt,并且在右側對話框進行測試,我的 Prompt 經(jīng)過了大概 4-5 版的迭代:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

迭代記錄:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

設置開場白、定時任務的功能:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

④測試效果

經(jīng)過我的測試,用 Coze 簡單定制的 Bot 回復效果已經(jīng)比 Perplexity 的效果好,特別是在調用 Google 搜索的結果上給了我很大的驚喜:

測試一:詢問 24 年的 AI 產(chǎn)品更新

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

測試二:詢問 MJV6 版本更新的具體內容

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

測試三:檢索 X 推文

在 X 內容的總結上,回復時好時壞,只能達到 5 成可用狀態(tài)。出現(xiàn)了一些啼笑皆非的狀況,比如分不清 Adobe AI 和人工智能 AI,同樣的問題過幾天問返回的結果也一模一樣等。我猜測這些問題是由于 Coze 中沒法接入我的 X API Key 導致的,Prompt 的方式也讓我無法更準確的定義接口調用方式。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

定制這個 Bot 的初衷是當作 X 趨勢生成器使用的,結果無心插柳柳成蔭,做成了可以白嫖無限 GPT-4 額度的且比 Perplexity 更好用的 AI 搜索引擎,我已經(jīng)在頻繁使用了。

總的來說,Coze 的能力很復雜也很強大,但在深度定制 Bot 的能力上缺乏詳細的指引,字節(jié)官方的文檔雖然詳細但對于多任務處理、Prompt 調試等沒有給出更多建議,Plugin 部分的文檔非技術人員看著還挺頭暈的。幫助用戶定制真正好用 Bot,大模型和中間層都還有挺長的路要走。

3. Character.AI 為首的虛擬社交

Chatbot 聊天機器人的賽道卷了多年,這一次在 LLM 的加持下再次爆發(fā),Character.AI 為代表的虛擬陪伴 Chatbot 產(chǎn)品成為了熱門賽道之一。許多團隊在 GPT 出現(xiàn)之前就已經(jīng)在籌備相關模型和產(chǎn)品了:Character.AI、Replika、國內團隊 Minimax 的 Talkie、星野,都是頭部選手,目前眾多大廠也已經(jīng)下場推出競爭產(chǎn)品。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

該方向本質上也是「GPTs」,但是在立繪、對話沉浸感上都經(jīng)過更多打磨。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

①用戶訴求

觀察頭部產(chǎn)品,大部分用戶的訴求圍繞在下圖這幾個方向。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

但當我翻看了小紅書、貼吧,又蹲了幾個國內內測產(chǎn)品的群后,基本上用戶主動曬的內容都和荷爾蒙訴求有關。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

內容來自 36kr,可輔助參考

②數(shù)據(jù)

目前虛擬陪伴產(chǎn)品的活躍和留存都很驚艷,但付費能力大多處于有待挖掘的狀態(tài)。結合各方公布的數(shù)據(jù),基本上目前粗略估計的情況是:頭部產(chǎn)品日活在 100 萬+,C.AI 做到了 500 萬+;次留基本可以做到 50% 以上,7 留在 30% 上下,是非??捎^的。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

圖片出自白鯨出海,點點數(shù)據(jù)

但目前在商業(yè)化方面,Chatbot 類產(chǎn)品沒有做得特別好。星野、Talkie 模仿了乙女游戲的抽卡付費,但其付費數(shù)據(jù)的不理想可能是內容過薄導致的。和 Dating 產(chǎn)品相比,Chatbot 產(chǎn)品剛需付費的場景少了很多,更多深度玩法還有待探索。

③產(chǎn)品形態(tài)

Replika 做重虛擬角色定制過程,強調角色唯一性。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

Replika 的定制過程

而 Cai、Talike、星野、筑夢島等一眾產(chǎn)品則是提供眾多 Bot 供用戶選擇,并支持 UGC 創(chuàng)建 Bot 并分發(fā)。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

Aura 進入后雖然只有單個角色,但支持開啟多個劇本的角色扮演,并且劇本由 AI 生成(降低了重復性)可以體驗和較長文本的對話。唯一遺憾的是劇本中的人設、名稱上都沒有做到統(tǒng)一,讓用戶產(chǎn)生割裂感,在整體體驗上不如乙女游戲中的劇情解鎖豐富。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

Aura 的角色扮演

④多模態(tài)開始卷起來了

長期來看,模型能力是 Chatbot 類產(chǎn)品的核心,但圖片、語音等多模態(tài)內容的豐富可以在一定程度上彌補模型能力的不足。

形象

產(chǎn)品表現(xiàn)層上,除了 Replika 使用了 3D 捏人,其他產(chǎn)品還處在快速大批量 AI 圖片生產(chǎn)的階段。(不過就過去一年元宇宙的觀察,注重 3D 不一定是一個好方向,迭代速度慢、開發(fā)成本高,用戶手捏的效率不必切換一個 Bot 低,另外國外的 3D 人物畫風總讓我覺得怪怪的)畢竟是競爭激烈的 2C 賽道,用戶非?!缚茨槨?。

值得一提的是,愛塔的部分 Bot 率先使用了動圖,讓用戶在刷 feeds 時的場景沉浸感更強。在 Pika、SVD 產(chǎn)品控制能力加強的趨勢下,未來 Chatbot 立繪的動態(tài)化應該很快會被廣泛采用。

當視頻在手機上無法加載,可前往PC查看。

語音

從表格中可以看到,最新推出的產(chǎn)品基本都配備了 TTS 能力,從數(shù)據(jù)和體驗上看,語音能力能強化有助于用戶留存。愛塔、星野在列表停留在某個人物時就會播放開場白,完全不需要看詳細的人設就可以對人物有一定帶入,美中不足的是對話時無法自動播放語音,否則體驗還會更上一層樓。

當視頻在手機上無法加載,可前往PC查看。

以下純屬個人淺薄觀點記錄,不一定嚴謹準確,歡迎后臺留言拍磚交流。

⑤長期使用趨勢

在保證模型記憶力的情況下,我認為情感陪伴類用戶會在長期的篩選中選擇 1-3 個心儀的 Agent 進行長期高頻的溝通對話,同時會存在階段性的替換需求(新鮮感過去了換個更好的聊)。但目前這類產(chǎn)品擦的傾向實在太高,未來國內監(jiān)管的力度帶來的影響不可知。

⑥方向分析和預測

市場情況

總的來說,因為國內監(jiān)管(對 NSFW 內容的限制)、國內外 2C 用戶付費能力的差異(與其他互聯(lián)網(wǎng)產(chǎn)品不同的是,大模型是有成本的,且短期內不會迅速降下來),大部分從業(yè)者應該都不太看好該方向在國內的發(fā)展。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

海外 App Store 中這樣的虛擬 18+ 產(chǎn)品已經(jīng)一大把了,而國內畢竟擁有巨大的人口基數(shù),且國內市場乙女向有《戀與制作人》《光與夜之戀》《橙光》等成功案例,加上情感陪伴底層訴求,Chatbot 的國內市場還是存在的。

此外,C.AI 形態(tài)的產(chǎn)品崛起讓一部分用戶涌向成本更低的 AI 虛擬人,極有可能會搶走一部分 IM、Dating APP 的活躍和時長(至于搶走多少可能還要看該賽道產(chǎn)品的未來發(fā)展)但倘若 IM、Dating 產(chǎn)品做這件事,又像是搬起石頭砸了自己的腳,降低了平臺上真實用戶的連接機會,也會對已有的產(chǎn)品調性社區(qū)文化產(chǎn)生反噬,這里我持長期觀望狀態(tài)。

不過也許未來有天當 AI 內容不再稀缺,用戶反而想要回歸和真人的社交關系也并非不可能。

產(chǎn)品規(guī)模

單純從國內市場而言,我認為這部分產(chǎn)品吃的是小眾垂直強訴求的用戶市場,用戶量天花板不會特別高(具公開資料顯示,Soul、探探巔峰期日活均在大百萬級別、戀與日活 18 年 200 萬,獨立 Chatbot 產(chǎn)品應該不會超過這個上限了),因此其不會是大公司眼里 Top 級別的好生意。

為什么我們會看到大廠全都往這個方向擠?

我猜想還是看中了 CharacterAI 為首的產(chǎn)品擁有可觀的留存與時長。今天的 2C 互聯(lián)網(wǎng)早已變成注意力的生意,除了抖音以外的頭部產(chǎn)品無不面臨數(shù)據(jù)下跌帶來的焦慮感,而 Chatbot 可能就是一劑短期止痛藥。另外一個原因就是競爭對手都在做,無論如何都要入局做主動性防御。不過大公司基本都看重已有用戶盤,因此比起做獨立 APP,內嵌在已有產(chǎn)品中是更合適的形態(tài)。不過說不好未來會不會面臨和 OS 系統(tǒng)廠商爭搶市場的局面(這些年 OS 廠商在語音助手上的功夫也不是白下的,以及 OS 發(fā)布會也需要新的 AI 故事),因此如果真的想做這個方向的產(chǎn)品,更早出發(fā)較好。

4. 大廠在 Chatbot 方向上的優(yōu)勢是?

資源整合,輔助已有需求場景

前面提到過,對于已經(jīng)擁有一定用戶量級的產(chǎn)品來說,可以將 Chatbot 能力融合到具體場景,用戶的使用會比較順滑自然。像釘釘這類辦公產(chǎn)品接入虛擬助手對話能力、GPTs 去為打工人提效是很有必要的。對于抖音這樣的平臺,Bot 定制能力適合開放給中小商家、視頻直播達人等。比如培訓機構、商家可以在 Coze 平臺上定制虛擬客服,通過上傳知識庫讓模型了解自家產(chǎn)品概況,在短視頻、直播評論區(qū)、群聊場景輔助創(chuàng)作者進行問答、評論區(qū)互動、私域引流等,提升用戶下單轉換,能進一步增強抖音電商和群聊的能力。

之前也 YY 過,頭部 KOL 適合用自己的 IP 做 ChatbotIP 定制,比如用戶可以對李佳琦的 Bot 咨詢護膚技巧、購買建議。至于陪伴類虛擬社交方向,估計乙女游戲已經(jīng)看到了陪伴類虛擬社交產(chǎn)品的興起,作為防御應該會在游戲中加入對話能力,進一步保證留存和用戶時長。

更天然的交互場景還有待挖掘

在 PC 端,Raycast、Arc 均提供了快速向 ChatGPT 提問的能力。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

同樣的,在移動端如果能做到用戶在不用點擊加載應用就快速喚起大模型進行對話會更好,當然這個方向我目前想到的解法都更適合 OS 廠商去做。

拿 iOS 現(xiàn)有的交互簡單發(fā)散幾個可能的方案:

方案一激進派:用戶可以將桌面某一屏設置成智能助理,并可以直接對話。鎖屏頁面解鎖,智能助理已經(jīng)將新信息歸納總結,也可以進入和智能助理對話的桌面查看并快捷處理信息。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

方案二保守派:桌面下滑搜索改成和智能助理對話的功能,需要了解什么直接詢問智能助理即可。相比于方案一沒有那么激進,更適合智能助理能力有突破但還沒那么接近 AGI 時的方案。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

如果有 OS 廠商看中了 idea 記得給我打錢 hhh

當然,這些都是理想情況的 YY 罷了,想要調動自身生態(tài)外的應用回傳數(shù)據(jù),實現(xiàn)難度可想而知。另外,如果過于強調效率,移動設備繁榮的應用生態(tài)失去了用戶時長、廣告收益,帶來的種種的問題對 OS 廠商來說也是非常難解的。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

這也是我沒那么看好近期發(fā)布的集成了 LLM 的智能硬件 Rabbittech 的原因,此類產(chǎn)品大概率噱頭大于實際效果

二、AI Agent 應用仍處探索階段

1. AI Agent 定義

準確的來說,AIAgent 指的是一種智能代理系統(tǒng),它接近人類的大腦,可形成記憶、達成行動規(guī)劃、自動交互、主動預測。

目前 AI Agent 的概念在市場上并沒有達成共識,存在被廣泛濫用的現(xiàn)象(很多 Chatbot 應用給 Bot 冠以「智能體」的名稱,準確地說也是對 Agent 的誤用)

①AI Agent 應用的特點

個性化:隨著用戶的使用越來越了解用戶習慣和想法,從而作出喜好預測。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

可自主完成任務:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

AutoGPT:用戶輸入一個目標后,可自主執(zhí)行任務、遞歸地開發(fā)和調試代碼

多 Agent 協(xié)作:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

Fixie AI 在收到用戶請求后啟動多個負責不同模塊的 Agent 進行數(shù)據(jù)查詢和傳遞,最終生成郵件內容給客戶回復

當視頻在手機上無法加載,可前往PC查看。

博主 @林亦 LYi 的《AI 炒股?我開了一家員工全是 AI 的公司,自動幫我炒股》就在某種程度上實現(xiàn)了多 Agent 協(xié)作的能力

目前,AI Agent 應用大多集中在 2B 場景,面向個人消費者的產(chǎn)品少之又少。一方面是高度智能化的 Agent 能力需要打磨,概念落地還有較長一段距離;一方面是 AI 和娛樂消費訴求的結合還幾乎沒有,其主要帶來的是生產(chǎn)方式變革和效率變革。個人消費者方向,目前只看到「私人助理」場景。

2. 驚艷的 Dot APP

Dot 是目前看到的最接近理想 AI Agent 形態(tài)的 C 端私人助理。手機廠商、智能音箱炒了那么多年私人助手的概念,終于有像樣的產(chǎn)品出現(xiàn)。在公開的案例中,Dot 支持用戶發(fā)送文本和圖像、音頻信息并理解內容,它能夠為用戶制定計劃、進行文件管理、推薦咖啡店,幫助用戶訪問互聯(lián)網(wǎng)中的最新工具和服務,Dot 希望成為用戶個體意識的延伸。其設計師是前 Apple 設計師 Jason Yuan。

雖然 Dot 看起來和 ChatGPT 一樣也是將不同任務的對話進行分類,但在信息展示和動畫設計上,Dot 的確更加亮眼。目前該產(chǎn)品需要排隊較久的 waitlist,官方也較少更新動態(tài)。

當視頻在手機上無法加載,可前往PC查看。

三、大模型能力逐步向多模態(tài)擴展

23 年下半年,GPT、Gemini Pro 在發(fā)力多模態(tài)識別、多模態(tài)輸出上發(fā)力,不管是移動版 ChatGPT 的語音功能、Dall·E3 的使用體驗還是 Gemini Pro 的宣傳片都相當亮眼。此外語義理解能力極大增強未來會逐步影響到應用層,相信未來只要通過 Prompt 控制生成的視頻、音樂效果都會逐步得到改善。

1. Dall·E3

此前模型的訓練數(shù)據(jù)通常是由人類描寫的圖像文本和圖像訓練而成,而人類描寫的文本內容傾向于簡單描述,容易忽略圖像背景中的大量細節(jié):

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

于是 OpenAI 建立了一個圖像標題生成器,通過建立擁有詳盡圖像文本描述的數(shù)據(jù)集進行模型訓練來強化模型對圖像的理解能力,下圖中可以看出,訓練的數(shù)據(jù)包含了從互聯(lián)網(wǎng)上抓取的選定圖像標題、SSC(合成的簡短標題)、DSC(合成的長標題),長標題中不僅描述了圖像的主題,還描述了它的周圍環(huán)境,背景,圖像中的文字,風格,顏色等。而這樣的數(shù)據(jù)將大量用于 Dall·E3 的圖像生成模型訓練。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

相信大家或多或少看過 Dall·E3 的使用案例,其在圖片生成時對語義和上下文理解達到了令人吃驚的程度。在這里分享好友瑤醬使用 Dall·E3、MJV5.2、SD 對《小鴨子》童話故事進行的測試,可以看出相同提示詞的情況下,Dall·E3 到底有多強:

當視頻在手機上無法加載,可前往PC查看。

2. GPT-5

據(jù) Sam Altman 透露,GPT-5 將在推理能力、可靠性等方面遠超 GPT-4,X 上部分用戶透露的圖片可以看出 GPT-5 將在多模態(tài)方面會增加視頻、3D、GF capabilities 的支持 1。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

3. Gemini AI

Google 前段時間公布了 Gemini AI 模型,雖然官方承認宣傳片存在后期剪輯,視頻中的效果還是著實驚艷到了大家。從 Google 披露的視頻情況看,模型從對話到圖像、視頻理解、生成能力都有非常全面的提升,能夠像人一樣猜出地步藏著紙團的杯子是哪一個,和人類進行簡單的游戲模擬,還能根據(jù)看到的兩團毛線團生成針織品成品圖。

當視頻在手機上無法加載,可前往PC查看。

甚至,可以根據(jù)視頻內容寫出代碼:

當視頻在手機上無法加載,可前往PC查看。

目前,Google 披露 Gemini 將提供三種版本,Ultra、Pro 和 Nano,分別適應復雜任務、廣泛場景和不同設備。

Ultra 版本是功能最強大的模型,能夠在各種復雜任務中提供最先進的性能,包括推理和多模態(tài)任務(應該就是上述視頻中展示的版本);Pro 版本在成本和延遲方面進行了性能優(yōu)化,提供了廣泛的任務上的顯著性能;Nano 版本是最高效的模型,設計用于在設備上運行。訓練了兩個版本的 Nano,分別具有 1.8B(Nano-1)和 3.25B(Nano-2)參數(shù),針對低內存和高內存設備。通過從更大的 Gemini 模型中蒸餾來訓練,并且是 4 位量化以便于部署。

目前 Pro 版本開放了 API 供開發(fā)者集成。

四、大模型應用推薦

目前市場上的大模型產(chǎn)品比較普遍的形態(tài)是插件和網(wǎng)頁,這里選取這段時間我個人在使用同時在市場表現(xiàn)比較出眾的幾款產(chǎn)品分享。

1. 沉浸式翻譯

該產(chǎn)品主打在所有網(wǎng)頁雙語翻譯、PDF 文檔對照閱讀。因此前我用 OpenAITranslate 和瀏覽器自帶的翻譯能力比較多,沉浸式翻譯作為一個備選工具在使用。不過最近新發(fā)現(xiàn)的一個能力非常打動我,可以一鍵開啟網(wǎng)頁中 YouTube 視頻的雙語字幕,因為 YouTube 自帶的字幕翻譯能力點擊路徑實在是太長了(得先開啟字幕 -> 再在設置中找到字幕翻譯 -> 滾動到最下方選擇中文),這個功能會是今后我在 YouTube 視頻觀看場景的剛需(如果能接入 X 的視頻就更好了)。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

2. Kimi

KimiAI 是由月之暗面科技有限公司開發(fā)的一款產(chǎn)品,其最大的特點在于超長文本(支持最多 20 萬字的輸入和輸出)的處理和基于文件、鏈接內容對話的能力。用戶可以上傳 TXT、PDF、Word 文檔、PPT 幻燈片、Excel 電子表格等格式的文件,KimiAI 能夠閱讀并理解相關內容,為用戶提供基于文件內容的回復。該團隊從超長文本處理的角度,精準切入其他大模型產(chǎn)品都不具備的特征和使用場景。目前我最主要的使用場景是閱讀 AI 論文,偶爾會拿來提取信息量比較大的播客信息(不過這個場景被下方的通義聽悟給替代了):

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

3. Monica

該工具集成了非常多的功能,包括聊天對話、PDF 翻譯問答、YouTube 摘要、文生圖等能力。很像是 ChatGPT、沉浸式翻譯、Kimi 等多個產(chǎn)品能力集成到一起的工具箱。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

甚至還集成了一些辦公場景的實用工具:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

值得一提的是,備忘功能(Memo)支持記錄用戶看過(總結過)的文章、視頻,支持剪藏圖片,作為個人知識庫進行沉淀,這部分的內容也可以在聊天模塊進行進行提問。

當視頻在手機上無法加載,可前往PC查看。

因功能全面,瀏覽器插件的形態(tài)使用方便,Monica 受到很多用戶喜歡,Chrome 插件商店數(shù)據(jù)顯示該插件一共有 100 萬安裝量。但由于我是在不太喜歡瀏覽器側邊常駐懸浮窗,在試用后就沒再繼續(xù)使用 Monica 了。

4. 通義聽悟

在對比了多個播客轉文字的產(chǎn)品(飛書妙計、BiliGPT、memoAI)后,阿里出品的通義聽悟無疑是體驗最好的一個。其首頁就突出了轉錄播客的功能,注冊贈送 10 小時免費轉錄。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

支持播客鏈接直接轉錄,準確率非常高。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

此外,還能夠在轉錄后自動生成問答回顧(很剛需,其實都免去了打開 Kimi 總結提問的那一步了)。選中文本,音頻內容會自動定位到對應位置,基本上滿足了我對播客內容轉文字的所有訴求。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

5. 心光

這是一款心情筆記 APP,是目前大模型應用中能夠較精準面向 2C 需求的產(chǎn)品。在已有筆記產(chǎn)品基礎之上,心光最大的特色在于記錄筆記之余提供了一系列 AI 能力。比如會通過 AI 為用戶的心情筆記進行主題聚類。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

首次使用心光時,用戶會自定義心光中一個非常重要的水晶球 AI 的角色(伴侶、朋友等)。在記錄日記的同時用戶可以通過個性化的水晶球 AI 抽取塔羅牌、求夸夸,獲得 AI 的反饋,不過實際體驗感覺部分回復還有些機械和模版化。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

另外,每周來信是個我非常喜歡的功能,在持續(xù)的記錄后,能有一個異步的總結反饋讓用戶感覺非常驚喜,也能激勵用戶持續(xù)使用下去。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態(tài)!

心光搭載了部分本地化 AI 模型,為打消用戶對隱私問題的疑慮,采取了數(shù)據(jù)上傳 iCloud 的方式進行信息存儲。目前該產(chǎn)品在僅有兩人全職的情況下發(fā)布,功能完成度非常高,但 APP 在表現(xiàn)層 UI 層級上處理的沒有那么好,加上功能較多,有時會找不到功能、看起來裝飾性的圖標其實是可點擊的按鈕等等,使用時會一點點心理負擔。

小結

雖說大模型誕生后沒有帶來新的需求場景,而是在原有場景中做改造,還是誕生了許多好用的產(chǎn)品,為內容生產(chǎn)、消費節(jié)約大量時間。24 年,模型能力的進步應該會更快的滲透到具體應用中去,期待接下來的更多大模型能力的釋放。

收藏 50
點贊 35

復制本文鏈接 文章為作者獨立觀點不代表優(yōu)設網(wǎng)立場,未經(jīng)允許不得轉載。