如何提升語音交互體驗(yàn)的設(shè)計方法

2022-05-30 分類：網(wǎng)站建設(shè)

創(chuàng)新互聯(lián)為你提供，《如何提升語音交互體驗(yàn)的設(shè)計方法》。

AI給人機(jī)交互帶來根本改變

AI的核心能力

回顧人機(jī)交互發(fā)展是“技術(shù)進(jìn)步”與“載體創(chuàng)新”交替螺旋促進(jìn)在推動著人獲取信息的效率不斷提升，成本不斷降低。

AlphaGo先后打敗李世石和柯潔，百度發(fā)布自動駕駛系統(tǒng)“阿波羅”…..這一次由AI引領(lǐng)的技術(shù)進(jìn)步正在發(fā)生?；诖罅考儍魯?shù)據(jù)的深度學(xué)習(xí)給將人工智能帶來的了巨大的進(jìn)步，這種進(jìn)步主要體現(xiàn)在三個維度。

認(rèn)知能力 – 基于用戶行為的畫像，將人機(jī)交互從“單向”關(guān)系帶入“雙向關(guān)系”
感知能力 – 由觸摸輸入到以語音輸入、圖像識別為核心的全自然交互
自然語音輸出能力 – 帶來新的”語音“設(shè)計材料

語音對于體驗(yàn)設(shè)計師來說是新的設(shè)計材料，它有哪些設(shè)計挑戰(zhàn)?語音設(shè)計有框架可尋嗎?有哪些設(shè)計方法?我們將在下面的文章與你分享。

設(shè)計挑戰(zhàn)

一. 從“有邊界”設(shè)計到“無邊界”設(shè)計

當(dāng)我們設(shè)計App界面，交互設(shè)計師會窮舉用戶在固定像素界面內(nèi)所有可能的操作，一一設(shè)計恰到好處的用戶反饋。但是對于語音交互用戶的輸入是沒有邊界的，用戶可能的輸入將遠(yuǎn)遠(yuǎn)超出你可能的窮舉的范圍。從”有形“的設(shè)計到”無形“的設(shè)計，視覺的設(shè)計規(guī)范在語音設(shè)計過程中將完全失效。

二. 從“近場”交互到“多距離空間”交互

語音交互可主要分為近場交互(例如：度秘/siri)和中場交互(車載)、遠(yuǎn)場交互(智能音箱)。

多距離場景的有以下幾個維度的不同：

A.場景特征：在非近場交互的場景下用戶可能在其他事情上，而非專注在其他任務(wù)，這給如何讓用戶最小成本的獲取當(dāng)前系統(tǒng)的狀態(tài)帶來挑戰(zhàn)，“我喚醒了設(shè)備嗎” “我可以說了嗎” 每一個節(jié)點(diǎn)需求都需要多維度的定義。

B. 輸入方式：常用的輸入方式有實(shí)體操作(按鈕/旋鈕等等)，觸摸，語音，動作，在近場交互時實(shí)體與觸控是第一選擇，而當(dāng)中遠(yuǎn)場交互時語音成為輸入方式的第一選擇。伴隨各種智能音箱、或者Iphone X等采用深度攝像頭應(yīng)用的普及，中遠(yuǎn)場景的動作輸入將逐漸成為重要的輸入方式之一。

設(shè)計方法

一. 用“語音交互框架”匹配“使用場景”

語音交互帶來人機(jī)交互向更自然的方向提升，人機(jī)交互更趨近于“人人交互”，怎樣理解語音交互框架，我們可以從人人交互一探究竟。

現(xiàn)在回想你讓別人幫你把水杯拿過來，你與這個人的交互節(jié)點(diǎn)是什么樣子的?

首先你要叫他的名字，如果他聽到了會回答你“干嘛呀”或給你個眼神兒，這時候你知道他在聽你說話，你可以繼續(xù)說了-“給水杯拿來”。他可能需要想想水杯在哪或者問你，當(dāng)他去拿水杯你會看到他正在行動。將與人的語音交互節(jié)點(diǎn)提煉出來，進(jìn)行總結(jié)就是語音的交互框架：

如上圖所示語音的交互框架由以下四個節(jié)點(diǎn)構(gòu)成，每個節(jié)點(diǎn)用戶有相應(yīng)需求：

喚醒：用戶有得到“是否喚醒語音“反饋的需求
輸入：用戶有得到設(shè)備正在“聽說話嗎”的需求(相當(dāng)于loading)
理解：用戶有得到“在幫我說事情嗎?“ 的需求
回答/行動：用戶有查看任務(wù)是否完成的需求

語音的交互框架解釋了語音交互流程，等同于觸屏設(shè)備定義的”點(diǎn)擊屏幕“”雙指pinch“ ”搖一搖“。但是僅僅了解交互框架是遠(yuǎn)遠(yuǎn)不夠的，比框架更重要的是語音交互場景，在不同場景下以上”喚醒、輸入、理解、回答/行動“四個節(jié)點(diǎn)有不同設(shè)計方式。

舉個例子：在語音交互的第二個節(jié)點(diǎn) – 輸入中需要用”波形高低“與”語音響度高度“相匹配來給用戶正在聆聽的反饋，在不同場景下波形要采取不同的設(shè)計策略：

車載場景：駕車時用戶的視覺注意力被路況占據(jù)，這時候一方面需要引入”叮“的一聲語音反饋，另一方面需要設(shè)計采取更強(qiáng)的視覺波形確保一瞥既得。

語音音箱：語音音箱的場景雖然不像駕車場景注意力被強(qiáng)占據(jù)，但是它是沒有屏幕的，這時候一般會采取帶強(qiáng)弱有呼吸感的燈效解決反饋的問題。

”無形“的語音能”附著“在各種設(shè)備上，場景也是千變?nèi)f化的。在設(shè)計時要時刻記住 ”喚醒-輸入-理解-回答/行動“ 的語音交互框架和每個節(jié)點(diǎn)的用戶需求，關(guān)注用戶的使用環(huán)境，和視覺/聽覺注意力的占據(jù)情況，不要局限只用聲音做反饋。

二. “喚醒”設(shè)計

喚醒是語音交互的第一步，聽說剛發(fā)布的某國產(chǎn)品牌的AI音箱選了十多個喚醒詞，最后才用了“小愛同學(xué)”，rokid的喚醒詞”若琪“也經(jīng)過了精心的設(shè)計。這充分說明了喚醒設(shè)計重要性。

喚醒方式可以是任務(wù)的觸發(fā)動作，比如點(diǎn)擊，按壓，動作，語音，表情。目前主流的喚醒方式有以下3三種 – 實(shí)體按鈕、虛擬按鈕、語音喚醒，每種喚醒方式各有特點(diǎn)，適用于不同場景，下面我們來逐一分析一下：

1. 實(shí)體按鈕：優(yōu)點(diǎn)是能提供觸覺反饋，使用場景有兩種

A. 當(dāng)用戶的視覺通道被占據(jù)時。

B. 近場交互且設(shè)備沒有屏幕或屏幕處于熄滅狀態(tài)時，例如在熄屏狀態(tài)下通過長按Home喚醒

2. 虛擬按鈕：喚醒方式有兩種操作方式 – 點(diǎn)擊和長按。兩種方式的本質(zhì)差別有三個：與面部距離、操作成本長按大于點(diǎn)擊、微信養(yǎng)成的語音輸入習(xí)慣使得長按更符合用戶習(xí)慣。

A. 點(diǎn)擊：面部與屏幕距離遠(yuǎn)，波形反饋可見，能更好的確認(rèn)設(shè)備是否在收音，且成本較小。大多數(shù)的近場交互都可以使用。同時車載場景特別適用，試想在駕車情況下讓用戶長按輸入語音簡直就是災(zāi)難。

B. 長按：離麥克距離比較近，能帶來更好的收音效果?？梢宰鳛橐环N輔助的喚醒方式兼容。

3. 語音喚醒：在雙手被占據(jù)和遠(yuǎn)距離場景下語音喚醒都是好的方式，在設(shè)計語音喚醒是要注意以下三個方面：喚醒詞的形象設(shè)計、注意喚醒后的聲音反饋、防止誤觸發(fā)。

A. 喚醒詞的形象設(shè)計：喚醒詞的設(shè)計是機(jī)器人格的一部分。在平常的社會交往中，高雅、深邃的名字，往往會給人留下美好的印象。庸名俗字則給人一種不愉快的厭惡心理或排斥感。比如”靜靜”給人”文靜，秀氣”的感覺?！疤翘恰苯o人“甜蜜”的感覺。

初期的人工智能的能力是有限的，有時會給出不盡如人意的回答。一個萌萌的有親和力的名字能讓用戶有更高的寬容度。

同時喚醒詞意象要與聲音特色相一致，聽覺情感是非常敏感的，想象一下如果一個萌妹子說話的聲音很粗獷，或者一個壯漢聲音很細(xì)你是不是覺得很不舒服。去定義喚醒詞對應(yīng)的感知意向，在語音合成訓(xùn)練時匹配這種意向。

B. 使用反饋音：語音喚醒一般使用在遠(yuǎn)場交互場景，這時候用戶很難能通過視覺確認(rèn)是否喚醒了設(shè)備，就需要給出語音反饋 —- 比如“?！? 或“我在呢”等等。

C. 防止誤觸發(fā)：在日常交流中我們每天會說很多重復(fù)的字或詞，比如”你“”誒“哦”等等，在設(shè)計喚醒詞時要避開這些詞匯。

三. 對話的體驗(yàn)設(shè)計

喚醒之后的對話環(huán)節(jié)是語音體驗(yàn)設(shè)計的核心，我們?nèi)绾未蛟靸?yōu)秀的設(shè)計體驗(yàn)?zāi)?首先需要了解語音交互類產(chǎn)品對話的基本特點(diǎn)，包括：輪流說話的方式、合作式的對話、關(guān)注語言的蘊(yùn)意及語境、具有線索引導(dǎo)、對話具有可修復(fù)性。

在具體對話的編寫上，給大家推薦通用的Grice表達(dá)準(zhǔn)則，可以有效提升語音對話的效果。準(zhǔn)則包括以下4方面：

表達(dá)質(zhì)量：陳述的是有效的事物
信息量：不多不少，恰到好處的語言信息含量
關(guān)聯(lián)性：陳述與話題相關(guān)的信息
習(xí)慣性：簡明扼要，直奔主題，避免模糊晦澀的表達(dá)

根據(jù)不同的使用場景對話編寫也有較大差別，主要從以下兩個維度入手：

1.區(qū)分“任務(wù)式設(shè)計”與“閑聊式設(shè)計”。對話式設(shè)計主要分為兩種場景：任務(wù)式對話和閑聊式對話。

任務(wù)式對話：如理財顧問，醫(yī)生，購房助手，用戶使用這類對話的型產(chǎn)品是為了盡快得到答案，而不是向人們“調(diào)戲”siri一樣。這類的產(chǎn)品應(yīng)遵循如下原則：

A. 引導(dǎo)用戶用戶如何輸入

語音是無形沒有邊界的，不要讓用戶進(jìn)來不知道說什么。用戶可能采用各種無法預(yù)知的句子輸入。為了避免發(fā)生錯誤，應(yīng)在界面上引導(dǎo)用戶怎樣輸入或主動開啟一個對話。

B.設(shè)置邊界

不要試圖去做閑聊型“機(jī)器人”，當(dāng)入用戶的輸入你的產(chǎn)品無法理解或與你產(chǎn)品的主任務(wù)無關(guān)時，不要裝聰明，給用戶選項提醒用戶他能用的表達(dá)方式。

閑聊式對話：如微軟小冰，度秘等。用戶使用這類對話式產(chǎn)品的目的是“娛樂”，效率不在是第一需求，怎樣讓對話有趣避免冷場是新的設(shè)計目標(biāo)：

A. 雙向溝通，主動聯(lián)想

避免對話一直是”one shot” 式的一問一答。雙向的溝通才能讓對話變得有趣，當(dāng)用戶打開你的產(chǎn)品時根據(jù)天氣，時間等因素做主動的交談，比如當(dāng)用戶深夜打開你的產(chǎn)品時，設(shè)置一段問候的對話會讓你的產(chǎn)品變得富有人文關(guān)懷。

B. 迎合用戶情緒

當(dāng)用戶表達(dá)出悲傷或開心等情緒時，用戶會很期待你的產(chǎn)品具有同理心，用圖像或?qū)υ捙c用戶建立情感連接，將使得對話變得富有人情味，增加產(chǎn)品的粘性。

C .鼓勵輸入

閑聊式對話產(chǎn)品的體驗(yàn)依賴于對用戶數(shù)據(jù)的收集，你的產(chǎn)品積累的對話數(shù)據(jù)越多，通過深度學(xué)習(xí)就越能給出用戶滿意的反饋。在設(shè)計時通過獎勵機(jī)制和可視化的鼓勵引導(dǎo)用戶來豐富你的數(shù)據(jù)庫。

2. “聽覺形象”的體驗(yàn)設(shè)計

通過“色彩、材質(zhì)、形狀、版式、動效、字體”塑造視覺形象，用視覺形象反映產(chǎn)品氣質(zhì)、品牌理念是GUI設(shè)計師工作之一。人工智能賦予了機(jī)器擬人化聲音輸出的能力，帶來的語音設(shè)計材料。不同的聲音帶給用戶的感受是不大相同的，低沉的聲音給人“穩(wěn)重，成熟的”的感覺，尾音語調(diào)向上的聲音給人“愉悅，被尊重”的感覺。

如何用“音色、節(jié)奏、音調(diào)、響度”的語音設(shè)計要素設(shè)計恰如其分的聽覺形象?

下面我結(jié)合項目經(jīng)驗(yàn)和一些研究與你分享一些流程的方法。

A.從“先設(shè)計后開發(fā)”到“先開發(fā)后設(shè)計”一個全新的實(shí)現(xiàn)流程

語音是不可見的，設(shè)計師沒有“語音的PS” ，在語音形象的設(shè)計中必須先有“語音基礎(chǔ)形象”設(shè)計師基于語音基礎(chǔ)形象進(jìn)行再設(shè)計。對百度feed讀新聞的體驗(yàn)重新設(shè)計時，先進(jìn)行的是不同新聞情感特色的定義，基于新聞情感收集當(dāng)量的”語料“數(shù)據(jù)，通過深度學(xué)習(xí)來提取每類語料數(shù)據(jù)的聲音特色形成”基礎(chǔ)形象“，在對基礎(chǔ)形象進(jìn)行”語調(diào)，速度，節(jié)奏”的微調(diào)進(jìn)行升級形象設(shè)計。

以上流程可抽象出“聽覺形象”的設(shè)計流程：“定義 – 挑選 – 訓(xùn)練 – 調(diào)整”

定義：根據(jù)內(nèi)容/產(chǎn)品氣質(zhì)/品牌愿景定義產(chǎn)品的“聽覺形象”，八卦的情感要用“戲謔的”，歷史的聽覺相應(yīng)要有“滄桑感”

挑選：去語音庫里挑選具有定義的聽覺形象的語音片段。比如如果要產(chǎn)生的聽覺形象是“滄桑感”時，可以挑選一些單田芳老師語音片段

訓(xùn)練：將大量語音片段交由技術(shù)人員進(jìn)行語音合成訓(xùn)練

微調(diào)：通過調(diào)整“語調(diào)、速度、節(jié)奏”使之給用戶的感覺更接近于先前定義的“聽覺形象”

B. 保持“聽覺形象”與“品牌情感”的一致性

在進(jìn)行視覺設(shè)計時設(shè)計師要通過“色彩，形狀”等設(shè)計元素支撐品牌情感，對與大型公司會要求他們的每一個產(chǎn)品遵循一致性的設(shè)計規(guī)范。進(jìn)入“聽覺形象”設(shè)計時代，當(dāng)你的產(chǎn)品要使用語音交互時，確保產(chǎn)品的“聽覺形象”與品牌情感保持一致，這將能夠強(qiáng)化品牌給用戶的印象。

C. 保持”聽覺形象“與“用戶場景”的一致性:

現(xiàn)在回想一下機(jī)場內(nèi)的語音“尊敬的旅客飛往北京的T343航班….”，這種語音形象給用戶“被服務(wù)的、受到尊敬“的感覺，與用戶在機(jī)場的場景相一致。而在醫(yī)院，起碼在中國的醫(yī)院，醫(yī)療資源與患者數(shù)量極不匹配，患者與醫(yī)生更像是”求助關(guān)系“而非“服務(wù)關(guān)系”, 使用過于“服務(wù)化”的語音形象反而會給用戶帶來強(qiáng)烈的落差感。

D. 保持“聽覺形象”與“內(nèi)容“一致性

“內(nèi)容”本身是具有形象屬性的，比如二次元的新聞如果用粗獷的男生讀出來一定會很違和。因此在進(jìn)行內(nèi)容消費(fèi)型設(shè)計時要充分考量語音所說的內(nèi)容與“聽覺形象”相匹配，避免出現(xiàn)違和感。但是在設(shè)計工具型產(chǎn)品時，不要頻繁更換語音形象，這會分散用戶注意力使效率下降。

四.利用視覺

語音交互的大優(yōu)勢是更加直覺化，可以大大降低用戶學(xué)習(xí)成本。但是語音輸出的是線性的，因此它無法同時輸出很多內(nèi)容。這是語音大的劣勢。

2015年在設(shè)計語音管家時有人提出要做個語音點(diǎn)外賣功能。這其實(shí)是違背語音場景的，當(dāng)語音輸出到第十道菜時用戶已經(jīng)忘了第一道菜是什么了。所以當(dāng)時在設(shè)計時當(dāng)用戶發(fā)起需要當(dāng)量信息交互的任務(wù)時，會通過PUSH引導(dǎo)用戶查看視覺信息。

在設(shè)計時充分利用視覺與聽覺的互補(bǔ)性，聽覺記憶時間短暫的，不要用語音輸出大量信息，尤其輸出的信息是需要用戶記憶時。

AI時代的變與不變

AI帶來機(jī)器的認(rèn)知能力和感知能力的提升，給人機(jī)交互帶來的改變是根本的，傳統(tǒng)的人機(jī)“輸入 – 反饋”循環(huán)，將逐步過渡到“推薦 – 選擇”循環(huán)。人機(jī)交互也將由單向從屬關(guān)系，向雙向訓(xùn)練關(guān)系過渡。這種改變將重寫“設(shè)計思維、方法、流程、規(guī)范”。

然而每個時代都會有屬于它的符號和偶像，對于設(shè)計師來說，賦予產(chǎn)品以靈魂的精神是始終不變的。

創(chuàng)新互聯(lián)網(wǎng)站建設(shè)為你，轉(zhuǎn)載：《打造優(yōu)秀語音交互體驗(yàn)的設(shè)計建議》,更多行業(yè)資訊等你查閱。

網(wǎng)站欄目：如何提升語音交互體驗(yàn)的設(shè)計方法
網(wǎng)址分享：http://www.muchs.cn/news/160809.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供手機(jī)網(wǎng)站建設(shè)、微信小程序、網(wǎng)站建設(shè)、品牌網(wǎng)站設(shè)計、營銷型網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計公司

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

創(chuàng)新互聯(lián)是一家怎樣的公司 2022-05-30
企業(yè)官網(wǎng)怎么做才能受到用戶的喜歡？ 2022-05-30
雙色調(diào)網(wǎng)站應(yīng)該如何設(shè)計布局 2022-05-29
網(wǎng)站空間的常見形式 2022-05-29
微信營銷到底有什么優(yōu)勢 2022-05-29
seo優(yōu)化編寫的技巧 2022-05-29