5400字干貨!無障礙語音控制設(shè)計(jì)指南

在生活中,你有遇到過因手部受傷而無法方便地使用手機(jī)的經(jīng)歷嗎?全世界有大約 10 億殘障人士,其中有 3-4 億人存在肢體活動方面的限制。你了解過他們在日常生活中是如何使用手機(jī)等智能設(shè)備的嗎?

對于肢體活動不便的人來說,通過語音控制操作智能設(shè)備至關(guān)重要。例如,在無法使用上肢的情況下,語音控制能讓殘障人士通過說話替代手操作智能設(shè)備,實(shí)現(xiàn)普通人所能完成的所有功能。

為有肢體活動障礙的人們設(shè)計(jì)無障礙語音控制體驗(yàn)有兩點(diǎn)意義:

  1. 以人為本:一個(gè)好的產(chǎn)品應(yīng)該具備包容性,做到人人適用,讓每個(gè)人都能享受科技帶來的便利。無障礙語音控制不僅讓殘障群體也能使用微信等日常應(yīng)用,也為普通人提供更便捷的操作體驗(yàn)。
  2. 推動創(chuàng)新:語音控制設(shè)計(jì)推動了產(chǎn)品向多模態(tài)交互的方向發(fā)展,使用戶能夠通過語音、觸控、手勢等多種方式與產(chǎn)品互動,實(shí)現(xiàn)更加自然和靈活的交互體驗(yàn)。

一、什么是無障礙語音控制

語音控制是一種輔助技術(shù),可讓人們僅通過語音與設(shè)備進(jìn)行交互。人們可以通過語音命令來執(zhí)行手勢、與屏幕元素互動、聽寫和編輯文本等。
Voice Control is an assistive technology that lets people interact with their devices using only their voice. People speak commands to perform gestures, interact with screen elements, dictate and edit text, and more.
——蘋果開發(fā)者文檔 ( Apple Developer Documentation )

在所有輔助功能中,無障礙語音控制屬于「活動能力」類別。它是一種為肢體活動能力受限的群體設(shè)計(jì)的,用嘴說替代用手操作的交互方式。只需通過語音命令,例如說出「向下滑動」或「輕點(diǎn)發(fā)送」等命令,就能操作智能設(shè)備,達(dá)到與手指操作接近的效果。

語音控制是單次執(zhí)行的——用戶看到一個(gè)界面元素,說出一句命令,即可完成一步操作。人們第一次聽說「語音控制」時(shí),往往會將它理解為一種智能語音助手。但實(shí)際上語音控制無法理解你的語義和需求,也不能提供智能的對話式交互體驗(yàn)。它只能忠實(shí)地響應(yīng)用戶具體的操作命令。

5400字干貨!無障礙語音控制設(shè)計(jì)指南

1. 主流操作系統(tǒng)中的語音控制功能

目前,市面上主要有以下三套語音控制功能,他們的設(shè)計(jì)思路和功能是類似的,文章中主要以 iOS 的語音控制功能作為參考標(biāo)準(zhǔn)。

5400字干貨!無障礙語音控制設(shè)計(jì)指南

5400字干貨!無障礙語音控制設(shè)計(jì)指南

2. 基礎(chǔ)概念

① 語音命令的構(gòu)成

一般情況下,一句語音命令由三個(gè)元素構(gòu)成:動作、目標(biāo)和修飾。

  1. 動作:包括「輕點(diǎn)」、「打開」、「輕掃」、「滾動」、「前往」等命令。
  2. 目標(biāo):包括「發(fā)送」、「音量」、「W(鍵盤字母)」、「9(編號)」、「你好(文本)」等對象。
  3. 修飾:包括「兩次」、「向上」、「到底部」、「三個(gè)」、「粗體」、「雙指」等描述。

② 語音命令的類型

iOS 的語音控制命令可以分為四種類型:

  1. 設(shè)備相關(guān)。使用「靜音」、「拍攝屏幕快照」、「鎖定屏幕」等命令進(jìn)行設(shè)備層級的操作;
  2. 系統(tǒng)相關(guān)。使用「打開控制中心」、「前往主屏幕」、「打開微信」等命令進(jìn)行系統(tǒng)層級的導(dǎo)航;也可以使用「關(guān)閉語音控制」、「打開輔助觸控」、「旁白選擇<編號>」等命令聯(lián)動其它系統(tǒng)級無障礙功能;
  3. 應(yīng)用相關(guān)。使用「點(diǎn)擊<按鈕名>」、「滑動<編號>」、「將<標(biāo)簽 4>增大<4 檔>」等命令進(jìn)行應(yīng)用層級的操作;
  4. 文本相關(guān)。使用「在<短語>兩邊添加雙引號」、「剪切全文」、「將該內(nèi)容設(shè)置為粗體」等命令進(jìn)行文本層級的操作

5400字干貨!無障礙語音控制設(shè)計(jì)指南

響應(yīng)模式

對用戶語音指令的響應(yīng)分為兩種模式:作為命令執(zhí)行、轉(zhuǎn)為文本輸入。

  1. 命令模式。用戶的語音輸入將作為操作命令響應(yīng)。
  2. 聽寫模式。用戶的語音輸入將轉(zhuǎn)化為文本輸入。在英文系統(tǒng)環(huán)境中,還有「拼寫模式」,讓用戶可以逐字符地輸入。

在輸入文字時(shí),為了避免系統(tǒng)將用戶想要輸入的文字識別為命令,可以用語音開啟「聽寫模式」,用戶說出的所有話都會轉(zhuǎn)換成文字輸入。說出「命令模式」可以回到普通狀態(tài)。

在部分特殊場景下,比如嘈雜環(huán)境中,為了避免系統(tǒng)誤響應(yīng)用戶的語音命令,用戶可以說「進(jìn)入睡眠狀態(tài)」,臨時(shí)關(guān)閉語音識別。再通過說「喚醒」,來激活語音控制。

屏幕疊層

為了幫助用戶更輕松、更準(zhǔn)確地識別并選擇屏幕上的界面元素,iOS 的語音控制提供了三類屏幕疊層:名稱、編號和網(wǎng)格。

5400字干貨!無障礙語音控制設(shè)計(jì)指南

名稱:將顯示屏幕中可點(diǎn)擊元素的名稱。適用于控制圖標(biāo)和按鈕。

命令:「顯示名稱( Show names )」

編號:將為當(dāng)前屏幕內(nèi)所有可點(diǎn)擊元素加上數(shù)字標(biāo)注。適用于選擇朋友圈中的照片和名稱冗長的元素。

命令:「顯示編號( Show numbers )」

網(wǎng)格:將當(dāng)前屏幕劃分為網(wǎng)格,每一個(gè)網(wǎng)格有特定的數(shù)字編號。網(wǎng)格的數(shù)量和尺寸可以通過語音自定義,且每一個(gè)網(wǎng)格可以再分裂為更小的網(wǎng)格,以實(shí)現(xiàn)高精度的控制。適用于查看地圖,甚至游戲等場景。

命令:「顯示網(wǎng)格( Show grid )」

5400字干貨!無障礙語音控制設(shè)計(jì)指南

對于難以描述的元素(如沒有文字的圖標(biāo)按鈕、圖片等)和需要更高精度操作的場景(如地圖),可以借助屏幕疊層來快速找到想要操作的對象,并且可以通過說出編號或標(biāo)簽來進(jìn)行精準(zhǔn)操作。

屏幕疊層只是一種提示操作元素的輔助手段。在一種屏幕疊層開啟的時(shí)候,用戶也可以通過其它疊層的語音命令來進(jìn)行控制。比如,在「編號」疊層開啟時(shí),用戶也可以直接說出按鈕的名稱來操作。

在用戶的語音命令無響應(yīng)時(shí),語音控制功能也會為用戶自動切換更合適的屏幕疊層。例如,在相冊頁面中,用戶說「輕點(diǎn)圖片」,但有大量相同類型的元素名稱都是「圖片」。此時(shí)系統(tǒng)會切換至編號屏幕疊層,讓用戶再次確認(rèn)操作對象。

反饋、提示和建議

在用戶說出語音命令后,語音控制會通過屏幕頂部的 Toast 顯示用戶剛才說出的命令,通過視覺反饋?zhàn)層脩舸_認(rèn)系統(tǒng)執(zhí)行的命令準(zhǔn)確。而在系統(tǒng)識別到了用戶的語音命令,但卻無法響應(yīng)時(shí),系統(tǒng)會用頂部 Toast 提示當(dāng)前頁面建議使用的語音命令。

5400字干貨!無障礙語音控制設(shè)計(jì)指南

自定義命令

對于部分高頻或重復(fù)性場景,用戶可以通過自定義命令來保存這些操作。例如,可以記錄輸入密碼的手勢,在鎖屏界面時(shí)通過特定的語音喚起詞來執(zhí)行該手勢,解鎖屏幕。也可以記錄自己的地址,通過特定命令去快速粘貼地址。甚至可以和快捷指令( Shortcuts )搭配,實(shí)現(xiàn)語音激活付款碼、語音啟動錄音等。用戶創(chuàng)建的自定義命令不僅方便個(gè)人使用,還可以導(dǎo)出并分享給無障礙社區(qū)中的其他人。

③ 語音控制和旁白( VoiceOver )的異同點(diǎn)

由于名字中都帶有「語音( Voice )」,它們常被混淆。但其實(shí)語音控制和旁白是為不同群體設(shè)計(jì)的。語音控制主要服務(wù)于肢體活動障礙人士,而旁白則是為視覺障礙人士提供支持。

但兩者在適配時(shí)存在一些相似之處。例如,開發(fā)時(shí)都需要為界面元素添加無障礙標(biāo)簽( Label )。在旁白中,系統(tǒng)會朗讀這個(gè)標(biāo)簽,幫助用戶理解按鈕的功能。而在語音控制中,用戶看到標(biāo)簽后,可以通過語音說出標(biāo)簽名稱來操作對應(yīng)元素。

此外,界面元素的無障礙屬性——值( Value )、特性( Trait )和提示( Hint )——則適用于兩者。例如,在旁白中,系統(tǒng)會朗讀音量滑塊的名稱(標(biāo)簽)及其當(dāng)前音量(值),而在語音控制中,用戶可以通過語音命令調(diào)節(jié)具體的音量設(shè)置。

二、語音控制設(shè)計(jì)指南

1. 設(shè)計(jì)原則

根據(jù) WCAG 2.2 無障礙指導(dǎo),我們可以基于四個(gè)基本原則設(shè)計(jì)無障礙語音控制體驗(yàn)。

  1. 可感知的( Perceivable ):內(nèi)容必須能被用戶通過各種感官感知。
  2. 可理解的( Understandable ):信息和界面操作應(yīng)清晰直觀,便于用戶理解和使用。
  3. 可操作的 ( Operable ):用戶界面的所有功能必須能夠被操作,包括通過鍵盤等輔助工具。
  4. 穩(wěn)健的( Robust ):內(nèi)容應(yīng)配合各種設(shè)備和技術(shù)可靠地工作,包括輔助技術(shù)。

2. 通用設(shè)計(jì)建議

舒適的界面密度。在顯示屏幕疊層時(shí),過大的界面密度會讓名稱和數(shù)字標(biāo)簽互相重疊,導(dǎo)致操作效率下降。

簡潔、通用、符合直覺的元素名稱。在適配語音控制時(shí),我們需要為界面元素添加無障礙標(biāo)簽( accessibilityLabel ),也就是他們的名稱。簡潔的名稱方便用戶去朗讀,而通用、符合直覺的名稱能讓用戶不開啟屏幕疊層就猜出它的名稱。

避免界面元素與語音指令反饋條沖突。在系統(tǒng)執(zhí)行語音命令后,屏幕頂部會短暫顯示指令的具體內(nèi)容。在設(shè)計(jì)時(shí)需要確保界面內(nèi)的重要內(nèi)容不會被它遮擋。

5400字干貨!無障礙語音控制設(shè)計(jì)指南

提供基礎(chǔ)交互路徑。為部分需要拖拽等高級手勢才能完成的功能提供基礎(chǔ)的交互替代。例如,在微信內(nèi)將一篇文章加入浮窗,用戶需要從屏幕左邊緣滑動至屏幕右下角。這樣的操作在語音控制中難以實(shí)現(xiàn),因此,我們可以在設(shè)計(jì)時(shí)考慮補(bǔ)充一條更加基礎(chǔ)的交互路徑,輕點(diǎn)幾步即可完成。

5400字干貨!無障礙語音控制設(shè)計(jì)指南

3. 設(shè)計(jì)屏幕疊層

① 名稱疊層

在用戶不清楚某個(gè)界面元素的名稱時(shí),會開啟該疊層。名稱疊層的設(shè)計(jì)思路和旁白( VoiceOver )的播報(bào)設(shè)計(jì)思路非常相似。

  1. 定義顯示范圍。不需要讓界面中的所有元素都在疊層中顯示。例如,分割線、蒙層和不可點(diǎn)擊的頁面標(biāo)題等元素不需要在屏幕疊層中顯示。
  2. 確保元素分組。將關(guān)系緊密的元素合并為組,這樣能減少非必要元素的顯示數(shù)量,降低信息閱讀壓力。
  3. 用頁面內(nèi)容作為名稱。對于沒有明確標(biāo)題的界面元素,我們可以提取它的部分內(nèi)容信息作為標(biāo)題。例如,在郵件中,我們可以將郵件內(nèi)容開頭的前十個(gè)字作為名稱。

5400字干貨!無障礙語音控制設(shè)計(jì)指南

② 數(shù)字疊層

一般情況下,數(shù)字疊層會將屏幕內(nèi)所有可交互元素按照從上到下、從左到右的順序標(biāo)注。但在有連續(xù)數(shù)字排序的場景,例如日歷、排行榜和撥號盤,數(shù)字標(biāo)簽會優(yōu)先按照這些界面中的已有排序來排列。我們在設(shè)計(jì)時(shí)需要考慮,在這類場景下單獨(dú)定義數(shù)字標(biāo)簽的排列順序。

5400字干貨!無障礙語音控制設(shè)計(jì)指南

③ 兼容虛擬手勢

語音控制默認(rèn)的手勢命令(向上輕掃、向下平移等)在實(shí)際應(yīng)用中存在部分限制。

  1. 手勢響應(yīng)。虛擬手勢模擬的是一個(gè)起始點(diǎn)位于屏幕正中央,48pt 大小的圓形接觸面,它會向上下左右四個(gè)方向移動。在設(shè)計(jì)時(shí)需要注意,界面的滑動區(qū)域至少要包含屏幕中心 48pt 的范圍,否則可能導(dǎo)致手勢無法響應(yīng)。
  2. 手勢范圍。虛擬手勢運(yùn)動的范圍有限,它僅僅會運(yùn)動 96pt 的距離。在設(shè)計(jì)時(shí)我們需要確保 96pt 的滑動距離能夠順利觸發(fā)界面中的功能。典型場景是短視頻中的「滑動查看下一條視頻」、和社交媒體中的「下拉刷新」,它們往往要求滑動一段距離才能成功觸發(fā)。如果不能成功觸發(fā),則需要開啟網(wǎng)格疊層,使用更為復(fù)雜的「<編號>拖移到<編號>」命令。
  3. 手勢速度。虛擬手勢大致以 140pt/s 的速度運(yùn)動,比普通人的滑動手勢更慢。如果界面的響應(yīng)對手勢速度有要求,則需要額外注意。此外,手勢也模擬了松手后的慣性運(yùn)動。

5400字干貨!無障礙語音控制設(shè)計(jì)指南

三、語音控制的過去和未來

語音控制和輔助觸控 ( AssistiveTouch ) 、切換控制( Switch Control )、眼動追蹤( Eye Tracking )等功能共同構(gòu)成了為肢體殘障人士設(shè)計(jì)的無障礙生態(tài),已幫助了成千上萬的殘障群體享受科技發(fā)展的成果。

在過去,殘障人士依賴外接控制按鈕和切換控制功能配合完成對界面元素的操作。屏幕上會循環(huán)逐個(gè)高亮界面元素。當(dāng)掃描框移動到了用戶想要的目標(biāo)上時(shí),按下按鈕,即可對目標(biāo)進(jìn)行進(jìn)一步的操作,例如點(diǎn)擊、滾動等。

5400字干貨!無障礙語音控制設(shè)計(jì)指南

圖片來源: https://www.youtube.com/watch?v=HBo2BZ-Zzwg

語音控制則徹底解放對肢體的依賴,僅靠語音便可以控制整個(gè)屏幕中的內(nèi)容。如今,我們的設(shè)備還支持了頭部和眼部的跟蹤,大幅提升了定位目標(biāo)元素的效率。用戶通過輕微移動頭部或轉(zhuǎn)動眼睛,便可以定位界面中的元素。再通過特定的面部動作(如張嘴、眨眼等)或是注視停留幾秒鐘便可完成點(diǎn)擊等操作。

1. 依然存在的挑戰(zhàn)

為肢體殘障人士設(shè)計(jì)的輔助功能正在向著操作更輕松、執(zhí)行更精準(zhǔn)、入門更簡單的方向發(fā)展。但現(xiàn)有的語音控制功能還面臨著許多挑戰(zhàn)。

  1. 兼容性弱。語音控制難以兼容不同口音、不同語速的用戶。且在嘈雜環(huán)境中,系統(tǒng)無法準(zhǔn)確捕捉用戶的語音命令。
  2. 學(xué)習(xí)成本高。語音控制要求用戶使用特定預(yù)設(shè)的命令去操作。用戶需要提前學(xué)習(xí)大量的指令。
  3. 操作繁瑣。語音控制只能一步步地操作,對于長流程的場景,體驗(yàn)會較為繁瑣。

2. 未來的發(fā)展趨勢

近年來,在人工智能的幫助下,用戶能夠通過自然語言和多模態(tài)輸入與機(jī)器進(jìn)行交互。機(jī)器也能以前所未有的準(zhǔn)確程度去理解用戶的意圖,甚至是非常模糊的需求。我們在未來有希望看到以下趨勢。

  1. 自然語言控制。用戶不需要記住任何命令,可以用自然的語言去表達(dá)命令。例如,用戶只需說出「點(diǎn)擊屏幕下方那個(gè)綠色的按鈕」或「幫我編輯一條朋友圈,說今天天氣真好,順便把剛剛拍的幾張照片加上」,系統(tǒng)即可響應(yīng)。
  2. 多模態(tài)輸入?;旌隙喾N輸入方式(如語音、視線、頭部運(yùn)動等)去操控設(shè)備。語音控制也可以搭配其它類型的無障礙功能使用。

3. 對普通人的意義

為情景式殘障 ( Situational Disabilities ) 設(shè)計(jì):在日常生活中,我們常常會遇到暫時(shí)的殘障。手臂受傷時(shí),操作設(shè)備會產(chǎn)生疼痛。下廚時(shí),濕漉漉的雙手會弄臟屏幕。駕駛時(shí),伸手點(diǎn)擊屏幕可能產(chǎn)生危險(xiǎn)。這些場景下,我們也希望擺脫對肢體的依賴,用語音去控制設(shè)備。為殘障群體設(shè)計(jì),也是為普通人設(shè)計(jì)。

總結(jié)

語音控制是肢體殘障群體的日常生活中不可或缺的一部分,是他們與智能設(shè)備交互的基石。通過設(shè)計(jì)優(yōu)良的語音控制體驗(yàn),肢體殘障人士能夠獲得與他人同等的使用權(quán)利和機(jī)會,我們也能深入了解他們的習(xí)慣和需求。我們希望有更多設(shè)計(jì)師關(guān)注并積極參與到無障礙技術(shù)的設(shè)計(jì)中,共同打造完善的輔助功能生態(tài),讓科技進(jìn)步惠及各類殘障群體,實(shí)現(xiàn)科技向善。

收藏 16
點(diǎn)贊 29

復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。