近日 ChatGPT-4o 的發(fā)布會(huì)應(yīng)該是未來幾天 AI 圈子最有熱度的話題了,其中幾條更新其實(shí)可以從人機(jī)交互的角度解讀一下。
推薦閱讀
首先我們還是先來看看 GPT-4o 更新的主要內(nèi)容(只關(guān)注交互角度解讀可跳過):
- 多模態(tài)交互能力:ChatGPT 4.0 支持圖像和文本輸入,并能輸出文本,具備多模態(tài)交互的能力。這意味著它可以理解圖像內(nèi)容,并生成字幕、分類和分析等操作。
- 自然語言理解能力提升:在自然語言理解方面有顯著提升,這使得 ChatGPT 4.0 能夠更好地理解用戶的輸入,并根據(jù)用戶的語境提供更準(zhǔn)確的回答。
- 上下文長度增加:ChatGPT 4.0 的上下文長度得到增加,這使得模型在處理長篇對(duì)話時(shí)表現(xiàn)更佳,能更好地理解整個(gè)對(duì)話的背景和上下文,從而給出更準(zhǔn)確和恰當(dāng)?shù)幕卮稹?/li>
- 數(shù)據(jù)分析及可視化作圖功能:通過直接打通相關(guān)功能模塊,ChatGPT 4.0 能夠利用自然語言交互,根據(jù)知識(shí)庫、在線檢索到的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析及可視化作圖。
- DALL·E 3.0 功能:ChatGPT 4.0 引入了 DALL·E 3.0 功能,允許用戶上傳圖片并在其上進(jìn)行查詢,可以直接從必應(yīng)瀏覽,并直接使用 ChatGPT 中的 DALL·E 3.0 功能,在圖片上進(jìn)行創(chuàng)作。
- 模型架構(gòu)和訓(xùn)練數(shù)據(jù)的進(jìn)步:開發(fā)者在這個(gè)版本中引入了更先進(jìn)的模型架構(gòu)、更多的訓(xùn)練數(shù)據(jù)和更多的語言數(shù)據(jù),將聊天機(jī)器人的性能提升到了一個(gè)新的高度。
- API 開放和價(jià)格優(yōu)惠:新版本 GPT-4 Turbo 支持 128k 上下文,知識(shí)截止更新到 2023 年 4 月,視覺能力、DALL·E3,文字轉(zhuǎn)語音 TTS 等功能全都對(duì) API 開放,同時(shí) API 價(jià)格還打了 3-5 折。
這其中的第 1、2、3、5 點(diǎn)都可以從人機(jī)交互的角度聊一聊。
第 1 點(diǎn):多模態(tài)交互能力。
今天作者也看了一些寫 GPT-4o 更新的文章,有些人僅僅把多模態(tài)交互能力理解成了我們可以不僅僅使用文字和 GPT 交流了,這么理解實(shí)在太小看多模態(tài)交互能力了。
要知道,人類通過文字表達(dá)和聲音表達(dá),即使是完全同樣的文本。所包含的信息也有很大的差別。文字只是靜態(tài)的信息,而聲音包含更多維度的信息。例如語音、語調(diào)、音量、語速、停頓、重音等等。
同樣是「你好」,文字只能表達(dá) 1 種含義,而聲音可能能表達(dá) 4-6 種。對(duì)于程序來說,多模態(tài)交互意味著從更多來源獲得信息(指視、聽、文、環(huán)境等來源)。也意味著獲得更多信息(例如剛剛所說的聲音維度的語音、語調(diào)、音量、語速、停頓、重音)。
從多來源獲得信息并獲得更多信息,GPT 就可以縮短推理、判斷等過程,更快速的給與用戶回復(fù)。這就像是用戶自動(dòng)的把提問描述的更詳細(xì)了,把自己的要求說的更清楚了,如此一來 GPT 給與反饋的速度和質(zhì)量自然會(huì)有對(duì)應(yīng)的提升。(當(dāng)然同樣也有模型方面帶來的提升)
除了聲音之外,GPT-4o 的多模態(tài)交互能力還包括視覺理解能力,例如能識(shí)別圖像中的人臉,分析性別、年齡、表情等信息。這同樣是我們剛剛所說的從更多來源獲得信息以及獲得更多信息。
以上是多模態(tài)交互能力中,人向 GPT 輸入過程中的意義,那么對(duì)于人機(jī)交互的另一部分:GPT 向人輸出的階段,同樣意義非凡。
GPT-4o 可以根據(jù)需要以最合適的模態(tài)進(jìn)行回應(yīng),在之前 GPT 只能以文字進(jìn)行回復(fù),但之后則可以是文字、聲音、圖像。聲音模態(tài)的意義是支持更多交流場(chǎng)景以及對(duì)無障礙交互的包容。圖像的意義就不用多說了吧,無論是取代了命令行界面的圖形化界面,還是你晉升答辯時(shí)準(zhǔn)備的 PPT,都能體現(xiàn)圖像相對(duì)于文字的優(yōu)勢(shì)。
第 2 點(diǎn):自然語言理解能力提升
如果說多模態(tài)交互能力代表了輸入和輸出這兩個(gè)階段。那自然語言理解能力就代表了「處理」這個(gè)階段。當(dāng) GPT 從多來源獲得信息后,下一步就是理解這些信息,理解過后才能給出回復(fù)信息。自然語言理解能力的提升意味著 GPT-4o 對(duì)用戶意圖的識(shí)別更加準(zhǔn)確了。那么自然后續(xù)回復(fù)的內(nèi)容、回復(fù)的模態(tài)都會(huì)有更高質(zhì)量的結(jié)果。
第 3 點(diǎn):上下文長度增加
這一點(diǎn)的意義首先體現(xiàn)在長篇對(duì)話上,我們可以類比人與人之間的交流方式,兩個(gè)相識(shí)了多年的朋友,可能他們一句很短的對(duì)話就可以包含非常大的信息量,例如張三對(duì)李四說:你上回那個(gè)設(shè)計(jì)方案真是太牛了!
這句話本身沒提及但張三和李四都能理解的信息可能有:
- 設(shè)計(jì)方案的具體內(nèi)容
- 設(shè)計(jì)方案的效果
- 時(shí)間點(diǎn)(上回)
如果想清晰的表達(dá)以上的 1、2、3 包含的具體信息,可能需要上千字或十分鐘的對(duì)話才能說清楚,但由于這些信息都已經(jīng)被儲(chǔ)存在人的記憶中,兩人在交流的過程中就可以省略很多詳細(xì)的描述和前置條件,用一句話表達(dá)大量信息。
對(duì)于 GPT-4o 而言,可記憶的上下文長度增加就意味著他變成了一個(gè)對(duì)你更熟悉的程序,所以當(dāng)用戶與 GPT-4o 交流時(shí),就可以像張三和李四交流那樣使用更少的信息交流更多的信息,同時(shí)能夠保障交流質(zhì)量。
要注意的是,剛剛我使用了對(duì)你更熟悉的程序這樣的描述,而不是對(duì)你更熟悉的朋友這樣的描述,這里面關(guān)鍵的區(qū)別有兩方面,第一方面是所謂的上下文長度,可以類比人與人相識(shí)的時(shí)間和交流的信息總量、了解程度。
第二方面是我們可以暢想一下,如果現(xiàn)在的新生代兒童從很小的年齡就開始使用 AI 工具,并且 AI 工具附著在便攜式智能設(shè)備上,以多模態(tài)與用戶同時(shí)感知周圍環(huán)境,再加之 GPT-4o 的可貫穿數(shù)十年的可記憶上下文長度。這樣的 AI 可能會(huì)成為用戶最熟悉的朋友,甚至遠(yuǎn)超父母、家人。如果再給與這個(gè) AI 相應(yīng)的硬件,那幾乎可視為智械族了~
第 5 點(diǎn):DALL·E 3.0 功能
文生圖能力以及對(duì)圖片的智能編輯能力已經(jīng)是很多其他產(chǎn)品早已具備的了,不過 GPT-4o 這次更新幫助用戶節(jié)省了之前都是由用戶操作的不同數(shù)據(jù)類型轉(zhuǎn)化的操作,改為由 GPT-4o 代替,對(duì)用戶來說同樣是操作效率的提升。就像我們之前如果在某張圖片上看到了一個(gè)新概念,那可能需要用打字或 ocr 的方式將圖片轉(zhuǎn)化成文字再繼續(xù)使用。而 GPT-4o 以后將為用戶省掉這個(gè)過程。
其他的像創(chuàng)意工作、廣告制作、產(chǎn)品設(shè)計(jì)、教育演示等方面的意義就不再多說,市面上已經(jīng)有很多類似的產(chǎn)品了。
在整個(gè)發(fā)布會(huì)之中,還有一個(gè)令用戶們 wow 的點(diǎn)是 GPT-4o 的響應(yīng)時(shí)間僅為 232 毫秒(平均 320 毫秒),幾乎達(dá)到了與人類實(shí)時(shí)對(duì)話的水平,顯著優(yōu)于前代模型的延遲表現(xiàn)。
其實(shí)我們可以從以上的解讀中思考一下,為什么 GPT-4o 的響應(yīng)時(shí)間得到了如此大的提升?
第 1 點(diǎn):意味著 GPT-4o 獲取信息的速度更快了,信息量更多了。
第 2 點(diǎn):意味著 GPT-4o 理解這些信息更快了。
第 3 點(diǎn):意味著 GPT 能從上下文獲得更多用戶沒有直接表達(dá)的信息。
綜合以上 3 點(diǎn)提示再加上本身模型能力的提升,GPT-4o 的響應(yīng)時(shí)間達(dá)到 232 毫秒也就容易理解了。
當(dāng) GPT-4o 的響應(yīng)時(shí)間達(dá)到了人類與人類對(duì)話的水平時(shí),很多應(yīng)用場(chǎng)景的想象空間就更大了。具體作者想到了如下幾方面:
- 實(shí)時(shí)交互性增強(qiáng):這樣的響應(yīng)速度使得人機(jī)對(duì)話接近無縫對(duì)接,幾乎消除了傳統(tǒng)人工智能助手在處理請(qǐng)求和提供回復(fù)之間的感知延遲。用戶在與 GPT-4o 交流時(shí),會(huì)感覺像是在與另一個(gè)真實(shí)人類進(jìn)行自然流暢的對(duì)話,可以大大提升了交互的真實(shí)感和滿意度。
- 用戶體驗(yàn)優(yōu)化:更快的響應(yīng)時(shí)間減少了用戶等待反饋的心理負(fù)擔(dān),使得交流過程更加舒適和高效。這對(duì)于需要快速反饋的場(chǎng)景尤為重要,比如緊急情況下的信息查詢、即時(shí)決策支持或者快節(jié)奏的商業(yè)溝通。并且更加與人與人的交流相似了,想象一下我們?cè)诤团笥蚜奶斓臅r(shí)候,一般不會(huì)等個(gè) 3 秒再說話吧?
- 應(yīng)用場(chǎng)景拓展:由于能夠?qū)崟r(shí)處理音頻、視覺和文本信息,GPT-4o 打開了通往更多應(yīng)用場(chǎng)景的大門。例如,在客戶服務(wù)、教育輔導(dǎo)、遠(yuǎn)程醫(yī)療、虛擬助理、游戲交互等領(lǐng)域,實(shí)時(shí)交互能力都是提升服務(wù)質(zhì)量和效率的關(guān)鍵。
歡迎關(guān)注作者微信公眾號(hào):「AI與用戶體驗(yàn)」
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。
發(fā)評(píng)論!每天贏獎(jiǎng)品
點(diǎn)擊 登錄 后,在評(píng)論區(qū)留言,系統(tǒng)會(huì)隨機(jī)派送獎(jiǎng)品
2012年成立至今,是國內(nèi)備受歡迎的設(shè)計(jì)師平臺(tái),提供獎(jiǎng)品贊助 聯(lián)系我們
AI輔助海報(bào)設(shè)計(jì)101例
已累計(jì)誕生 753 位幸運(yùn)星
發(fā)表評(píng)論 為下方 3 條評(píng)論點(diǎn)贊,解鎖好運(yùn)彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評(píng) ↓