摘要:毫無(wú)疑問(wèn),人工智能產(chǎn)品會(huì)慢慢滲入人們的工作、生活、娛樂(lè)當(dāng)中,為各行各業(yè)帶來(lái)革命性的變化。未來(lái),產(chǎn)品與產(chǎn)品之間、產(chǎn)品與環(huán)境之間、產(chǎn)品與用戶之間的邊界會(huì)非常模糊,人們會(huì)在多設(shè)備中無(wú)縫跳轉(zhuǎn)和緊密連接,形成一個(gè)“你中有我,我中有你”的整體。在人工智能時(shí)代里,「原生硬件」,「AI 引擎」和「智能 App」是構(gòu)成完整智能體驗(yàn)和服務(wù)閉環(huán)的三要素。

如何提高人工智能交互體驗(yàn)?先來(lái)了解這個(gè)三元理論

圖 1 人工智能三元理論

關(guān)鍵詞:人工智能,人機(jī)交互,交互體驗(yàn),原生硬件,AI 引擎

引言

從 1956 年在達(dá)特茅斯正式提出 Artificial Intelligence,如今已經(jīng)過(guò)去了 60 幾個(gè)年頭,但直到 AlphaGo 大勝李世石和柯潔三負(fù) AlphaGo 后,“人工智能”才成為一個(gè)熱詞進(jìn)入大眾視線。而事實(shí)上,最近的一兩年,各大科技巨頭早已深入布局人工智能領(lǐng)域。從虛擬助手 Siri、微軟小冰到各家巨頭的智能音箱、智能駕駛,人工智能產(chǎn)品正逐漸融入我們的生活。在這個(gè)被視為會(huì)顛覆一切的人工智能時(shí)代,究竟產(chǎn)品存在什么樣的痛點(diǎn)?交互會(huì)有如何的改變?什么樣的交互設(shè)計(jì)才能讓用戶在使用人工能智能產(chǎn)品時(shí)獲得一個(gè)極致體驗(yàn)?

通過(guò)對(duì)市面一些人工智能產(chǎn)品體驗(yàn)和“AI 導(dǎo)覽機(jī)”項(xiàng)目(網(wǎng)龍為首屆數(shù)字中國(guó)建設(shè)峰會(huì)量身定制的智能導(dǎo)覽機(jī),可為來(lái)賓提供室內(nèi)尋路、會(huì)務(wù)信息查詢、百科知識(shí)解答、拍照合影等智能服務(wù))實(shí)現(xiàn)過(guò)程的分析得出的一些痛點(diǎn):

當(dāng)前人工智能產(chǎn)品體驗(yàn)的痛點(diǎn)

1. 對(duì)原生硬件的依賴非常大

智能交互可以理解為是感知->計(jì)算處理->執(zhí)行反饋的一個(gè)過(guò)程,與圖形用戶界面(Graphical User Interface, GUI)交互中的輸入(鼠標(biāo)或觸摸)不同的是,感知是人工智能交互最大的一個(gè)特色。受限于權(quán)限、進(jìn)程、設(shè)備能力等因素,無(wú)論是 App 還是 AI 引擎都難以隨時(shí)無(wú)縫的去訪問(wèn)底層的傳感器和計(jì)算單元,缺少硬件層面的傳感器去感知人與周圍壞境,作為信息輸入,就無(wú)法讓體驗(yàn)達(dá)到最佳。

2. 沒(méi)有主動(dòng)性、自發(fā)性

目前,智能家居硬件是人工智能最廣為運(yùn)用的領(lǐng)域,比如各大巨頭廠商推出的智能音箱。在與機(jī)器人開(kāi)啟對(duì)話時(shí),用戶需要點(diǎn)擊機(jī)器人身上的按鈕,并且每下發(fā)一個(gè)指令都必須要喚起一次,然后進(jìn)行一對(duì)一單線程對(duì)話。不難發(fā)現(xiàn),這是一種"不自然的語(yǔ)音交互",其本質(zhì)也只是更換了一種人工控制的方式。針對(duì)現(xiàn)有幾款智能音箱(小米小愛(ài)、天貓精靈、喜馬拉雅小雅、百度小度、叮咚二代),整理了產(chǎn)品在天貓和京東消費(fèi)用戶關(guān)于語(yǔ)音交互上反饋,可以明顯看到用戶對(duì)于需要頻繁喚醒感到不滿意:

如何提高人工智能交互體驗(yàn)?先來(lái)了解這個(gè)三元理論

圖 2 智能音箱痛點(diǎn)

而在"AI 導(dǎo)覽機(jī)"項(xiàng)目前期,也存在技術(shù)上和體驗(yàn)上的困惑:

  • 技術(shù):由于會(huì)場(chǎng)嘈雜,語(yǔ)音喚起導(dǎo)覽機(jī)產(chǎn)生交互的成功率會(huì)大大降低;
  • 體驗(yàn):為什么需要等到用戶開(kāi)口要求才給與反饋幫助,作為會(huì)場(chǎng)服務(wù)方,是否能主動(dòng)去發(fā)現(xiàn)理解每一位需要幫助的用戶?

再重新梳理情景后,導(dǎo)覽機(jī)取消語(yǔ)音喚起的方案,而是通過(guò)獲取人物影像,根據(jù)深度距離判斷用戶是否進(jìn)入近場(chǎng)交互觸發(fā)區(qū),根據(jù)人臉識(shí)別判斷用戶是否有互動(dòng)意向(面向時(shí)間,且過(guò)濾側(cè)面經(jīng)過(guò)的人群),進(jìn)而主動(dòng)詢問(wèn)用戶:親愛(ài)的來(lái)賓,請(qǐng)問(wèn)有什么可以幫到您?

理解用戶和主動(dòng)服務(wù)是人工智能產(chǎn)品具備的優(yōu)勢(shì),也是設(shè)計(jì)需要翻越的一道鴻溝。從被動(dòng)接受的指令模式升級(jí)為一種主動(dòng)服務(wù)式的智能產(chǎn)品模式,從用戶主導(dǎo)變?yōu)橹鲃?dòng)服務(wù)的模式,這才是更符合未來(lái)人工智能的"自然交互"。

3. 信息獲取的準(zhǔn)確率與效率

語(yǔ)音用戶交互(Voice User Interface, VUI)是人通過(guò)自然語(yǔ)言與計(jì)算機(jī)進(jìn)行交互,也是目前人工智能產(chǎn)品主流的交互方式。

從人類自身感官的角度來(lái)看,視覺(jué)接收的信息量遠(yuǎn)比聽(tīng)覺(jué)高。從內(nèi)容信息的形態(tài)區(qū)分,圖形用戶界面 (Graphical User Interface, GUI)主要為圖片和文字,依賴視覺(jué),而語(yǔ)音用戶交互(Voice User Interface, VUI)主要為聲音文字,依賴聽(tīng)覺(jué)。

大腦每秒通過(guò)眼睛接收的信息上限為 100Mbps,通過(guò)耳蝸接收的信息上限為 1Mbps。[1]

如果將圖像作為信息載體,視覺(jué)閱讀的信息遠(yuǎn)超聽(tīng)覺(jué)的 5 倍。眼睛還有一個(gè)特別之處,通過(guò)掃視的方式一秒內(nèi)可以看到三個(gè)不同的地方。[2]

另一方面,由于缺乏情境感知(Context Awareness)能力,即人的認(rèn)知,人工智能還無(wú)法很好的理解上下文,根據(jù)用戶是誰(shuí)、用戶情感、當(dāng)前環(huán)境、之前的記憶給出精確下一步的預(yù)測(cè)。

單純的語(yǔ)音交互對(duì)于用戶體驗(yàn)來(lái)說(shuō)是有缺陷的,在信息獲取的效率和準(zhǔn)確率上都有待進(jìn)一步提高。

人工智能產(chǎn)品交互的核心

從 PC 互聯(lián)網(wǎng)時(shí)代到移動(dòng)互聯(lián)網(wǎng)時(shí)代,產(chǎn)品的交互主要還是基于圖形用戶界面 (Graphical User Interface, GUI),但是到了人工智能時(shí)代,人與產(chǎn)品(智能 App、穿戴設(shè)備、智能硬件)的關(guān)聯(lián)愈加緊密和深入。人機(jī)交互將從簡(jiǎn)單的人與屏幕的單線程,拓展為語(yǔ)音交互、手勢(shì)交互、增強(qiáng)現(xiàn)實(shí)交互等多線程模式,進(jìn)入一個(gè)“自然交互”的時(shí)代。自然用戶界面是人機(jī)交互界面的新興范式轉(zhuǎn)變,通過(guò)研究現(xiàn)實(shí)世界環(huán)境和情況,利用新興的技術(shù)能力和感知解決方案實(shí)現(xiàn)物理和數(shù)字對(duì)象之間更準(zhǔn)確和最優(yōu)化的交互,從而達(dá)到用戶界面不可見(jiàn)或者交互的學(xué)習(xí)過(guò)程不可見(jiàn)的目的,其核心關(guān)注是傳統(tǒng)的人類能力 (如觸摸、視覺(jué)、言語(yǔ)、手寫、動(dòng)作)和更重要、更高層次的過(guò)程 (如認(rèn)知、創(chuàng)造力和探索)[3]?;诋?dāng)前人工智能體驗(yàn)的痛點(diǎn)和未來(lái)人機(jī)交互的核心,提出人工智能交互的三元:「原生硬件」,「AI 引擎」和「智能 App」,三元一體,環(huán)環(huán)相扣,會(huì)讓體驗(yàn)更趨于自然。

人工智能交互的三元理論

1. 原生硬件

在“AI 導(dǎo)覽機(jī)”項(xiàng)目 PRD 文檔里有兩個(gè)關(guān)于影像捕獲的需求:

  • 識(shí)別人臉并與虛擬人物合照,且能判斷用戶性別,在裝飾做一些附加處理;
  • 捕捉用戶動(dòng)作,與虛擬導(dǎo)覽員產(chǎn)生互動(dòng);

基于這兩個(gè)需求,發(fā)現(xiàn)導(dǎo)覽機(jī)常規(guī)的前置攝像頭并不能滿足功能的實(shí)現(xiàn):

  • 獲取呈像的范圍有限;
  • 無(wú)法獲取深度相機(jī)的深度值;
  • 無(wú)法捕捉用戶動(dòng)作;

因此,開(kāi)發(fā)人員在導(dǎo)覽機(jī)中配置入與 Kinect2 同等配置的 RGB Camera Depth/IR Cameear,形成一個(gè)滿足大空間中的 RGB 視場(chǎng)(FOV):

如何提高人工智能交互體驗(yàn)?先來(lái)了解這個(gè)三元理論

圖 3 Camera FOV 透視圖

芯片、傳感器、計(jì)算單元、執(zhí)行單元可以非常好的處理智能交互中的感知、處理、反饋。目前,各種感應(yīng)設(shè)備已經(jīng)可以精確檢測(cè)距離、光線、音量、人臉、動(dòng)作、溫度、濕度等等各種環(huán)境信息,通過(guò)感應(yīng)器采集過(guò)的信息形成信息空間,信息空間便是連接人和物理空間的虛擬空間。國(guó)務(wù)院下發(fā)的《新一代人工智能發(fā)展規(guī)劃》[4]中也強(qiáng)調(diào)了這一空間的建設(shè)和使用。

通過(guò)原生自動(dòng)記錄用戶使用數(shù)據(jù),自動(dòng)分析用戶使用習(xí)慣,自動(dòng)給與用戶最佳推薦,這一切都依賴于原生硬件。正如高粘度、貼近生活場(chǎng)景的硬件成為巨頭公司布局智能產(chǎn)品的最佳入口,如手機(jī)、手表、車載、音箱、耳機(jī)、電視、冰箱等等。

當(dāng)然未來(lái)的硬件也急需一次升級(jí),僅靠單純的圖形界面或是語(yǔ)音作為輸入輸出,都會(huì)讓信息獲取的準(zhǔn)確率和效率打折扣。硬件需要支持聽(tīng)覺(jué)、視覺(jué)、觸覺(jué)、影像等多維的信息輸入或展示。圖形用戶界面結(jié)合語(yǔ)音,甚至混合現(xiàn)實(shí)(Mixed Reality)、全息投影等,才能讓人工智能交互更趨向于立體和本能,而這一切離不開(kāi)原生硬件更有執(zhí)行效率、處理的終端芯片、更多維的傳感器。

2. AI 引擎

這里 AI 引擎特指人工智能的核心算法(深度學(xué)習(xí)算法、記憶預(yù)測(cè)模型算法等)在各領(lǐng)域的運(yùn)用:語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言處理和用戶畫像。

語(yǔ)音識(shí)別:人類自然發(fā)出的聲音轉(zhuǎn)換成響應(yīng)的文本或命令和把文字轉(zhuǎn)成語(yǔ)音并根據(jù)需求定制念出來(lái)。

圖像識(shí)別:我們常說(shuō)的計(jì)算機(jī)視覺(jué),常用在印刷文字識(shí)別、人臉識(shí)別、五官定位、人臉對(duì)比與驗(yàn)證、人臉檢索身份證光學(xué)字符識(shí)別(OCR)、名片 OCR 識(shí)別等領(lǐng)域。

自然語(yǔ)言處理:由于理解自然語(yǔ)言,需要關(guān)于外在世界的廣泛知識(shí)以及運(yùn)用操作這些知識(shí)的能力,自然語(yǔ)言認(rèn)知,同時(shí)也被視為一個(gè)人工智能完備(AI-complete)的問(wèn)題。自然語(yǔ)言處理(NLP)是人工智能中最為困難的問(wèn)題之一。

用戶畫像:用戶畫像是根據(jù)用戶社會(huì)屬性、生活習(xí)慣和消費(fèi)行為等信息/數(shù)據(jù)而抽象出的一個(gè)標(biāo)簽化的用戶模型。這也是內(nèi)容、大數(shù)據(jù)的結(jié)晶。

AI 引擎為人工智能產(chǎn)品提供核心運(yùn)算技術(shù),是不可或缺的“一元”。在“AI 導(dǎo)覽機(jī)”的智能對(duì)話中就運(yùn)用到語(yǔ)音識(shí)別和自然語(yǔ)言處理:

如何提高人工智能交互體驗(yàn)?先來(lái)了解這個(gè)三元理論

圖 4 語(yǔ)音對(duì)話框架

語(yǔ)音識(shí)別技術(shù)已經(jīng)趨于成熟,多個(gè)第三方平臺(tái)均有提供 SDK,而自然語(yǔ)言理解是人工智能的 AI-Hard 問(wèn)題[5],也是目前智能對(duì)話交互的核心難題。機(jī)器要理解自然語(yǔ)言,主要面臨如下的 5 個(gè)挑戰(zhàn)。

  • 語(yǔ)言的多樣性
  • 語(yǔ)言的多義性
  • 語(yǔ)言的表達(dá)錯(cuò)誤
  • 語(yǔ)言的知識(shí)依賴
  • 語(yǔ)言的上下文

得益于深度學(xué)習(xí)算法,以上各個(gè)問(wèn)題領(lǐng)域的技術(shù)都得到飛速的發(fā)展,相信在認(rèn)知計(jì)算(交流、決策、發(fā)現(xiàn))得到更大的突破之后,AI 引擎會(huì)從更多領(lǐng)域幫助人類。

3. 智能 App

智能 APP 代表著人機(jī)界面,人是交互的最終感知者,因此通過(guò)什么樣的介質(zhì)讓用戶獲得智能體驗(yàn)和服務(wù)在交互中舉足輕重。傳統(tǒng)的 APP 界面局限在移動(dòng)設(shè)備屏幕中,新興的智能音箱直接去掉圖形交互界面,兩者都有局限性。

“AI 導(dǎo)覽機(jī)”在落地過(guò)程中,為了讓用戶體會(huì)到絲綢之路的特色,在導(dǎo)覽機(jī)中置入多個(gè)應(yīng)用服務(wù)(智能 APP),讓用戶可以從視、聽(tīng)、觸上感受到峰會(huì)的魅力。

如何提高人工智能交互體驗(yàn)?先來(lái)了解這個(gè)三元理論

圖 5 導(dǎo)覽機(jī) AI 虛擬合影

智能時(shí)代的 APP,一定是能多維度的數(shù)據(jù)輸入,如識(shí)別語(yǔ)音、識(shí)別手勢(shì)、識(shí)別圖像、感知物理環(huán)境等等,也一定會(huì)是多維的信息展示,聽(tīng)覺(jué)、視覺(jué)、觸覺(jué),全息影像等等,讓交互形式更具感性的色彩,“像人一樣”。

未來(lái),人工智能一定會(huì)為人機(jī)交互帶來(lái)突破,傳統(tǒng)的人機(jī)交互技術(shù)(鼠標(biāo)鍵盤、觸屏等)難以使人與計(jì)算機(jī)實(shí)現(xiàn)如同人與人之間那樣高效自然的交互。伴隨著原生硬件能力的提升和語(yǔ)音識(shí)別、圖像分析、手勢(shì)識(shí)別、語(yǔ)義理解、大數(shù)據(jù)分析等人工智能技術(shù)的發(fā)展,人工智能產(chǎn)品將更好地感知人類意圖,驅(qū)動(dòng)人機(jī)交互的發(fā)展。人工智能三元「原生硬件」,「AI 引擎」和「智能 App」三者的結(jié)合運(yùn)用也會(huì)在未來(lái)人工智能產(chǎn)品交互的發(fā)展中將具有一定指導(dǎo)意義。

如何提高人工智能交互體驗(yàn)?先來(lái)了解這個(gè)三元理論

圖 6 人工智能三元理論框架

也許在未來(lái)有這樣的場(chǎng)景:

圣誕節(jié)的晚上,你開(kāi)車回家。到了地下室,車載設(shè)備問(wèn)你:天氣有點(diǎn)冷,到家后,要不要喝杯咖啡? 你告訴它想要的口味,然后停車上樓。開(kāi)門進(jìn)屋后,智能音箱自動(dòng)播放《Jingle Bells》,并告知咖啡還有 2 分鐘煮好。

參考文獻(xiàn)

  • [1] 知乎神經(jīng)科學(xué)和腦科學(xué)話題的優(yōu)秀回答者關(guān)于《耳朵和眼睛哪個(gè)接收信息的速度更快?》的回答
  • [2] 來(lái)自《人工智能的未來(lái)》一書
  • [3] Glonek G, Pietruszka M. Natural user interfaces (NUI): review. J Appl Comput Sci, 2012, 20: 27–45
  • [4] 國(guó)務(wù)院關(guān)于印發(fā)新一代人工智能發(fā)展規(guī)劃的通知 http://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm
  • [5] https://en.wikipedia.org/wiki/Natural_language_understanding
  • [6] 百度人工智能交互設(shè)計(jì)院 http://aiid.baidu.com/
收藏 20
點(diǎn)贊 10

復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。