移动终端的语音交互设计原则初探 - UXPA中国2016行业文集

2017-05-19 | 文集

 

移动智能终端的语音交互设计原则初探

高峰1, 郁朝阳

1中兴通讯股份有限公司,上海

 

摘要:自从2014年初发布星星一号以来,中兴通讯在智能手机的语音交互设计上一直大胆探索。经过这几年的设计实践和迭代优化,中兴通讯终端产品设计中心积累了丰富的设计经验。本文就是该设计团队在分析了语音交互的优势和劣势之后,为了扬其长避其短设计出更加美好的用户体验而总结出的八条设计原则的简单介绍。这八条设计原则包括:减少界面独占、示能与引导、消除尴尬感、场景智能、复杂操作与连续命令、可随时中断、可学习性和情感化。尤其是前面三条,阐释了中兴手机语音交互的核心差异性亮点背后的设计思考。

关键词:语音交互,交互设计,设计原则,智能终端,人机交互

 

1. 引言

人类探索语音识别、理解以及合成已经有70年的历史了。随着移动智能终端和云计算的快速发展,语音人机交互(Voice User Interaction)技术也快速发展。科大讯飞的2015年底的发布会上,记录董事长刘庆峰等7人演讲的讯飞会议语音转写系统,不论在字正确率方面,还是句意正确率方面都全面大幅度超过了现场5个速记员。

然而,由于使用场景的多样性和软硬件协调复杂性的影响,移动智能终端的语音交互体验仍然差强人意。不论是语音助手类的应用,还是高度集成语音功能的智能手机,在体验上都难以满足人们的需求。语音交互有着一些优点,但其缺点也非常明显。如何发挥其有点规避其缺点,结合移动智能终端的使用场景和硬件配置,设计出用户体验更好的语音交互产品,是一个非常值得研究探讨的话题。中兴通讯的终端产品设计团队在语音交互方面作出了一些卓有成效的努力和尝试,走在了行业前列。本文试图总结设计过程中的思考,归纳为简单的设计原则,供各位同行参考。

 

2. 语音交互的弱点

利用声音与机器进行交流,是人类的一个长期以来的梦想,因为语言交流是一个非常自然的沟通方式。然而,对比目前最为主流相对成熟的基于视觉图形的人机交互方式(Graphic User Interface,简称GUI),语音交互(Voice User Interaction,简称VUI)的基础——语言有一些属性上的缺陷。

 

2.1 输入输出以及理解的不确定性

人类的语言非常复杂。我们生活的这个地球上有超过5000种语言,使用人数超过100万的有140种。仅就中文而言,方言也极其复杂。北方官话还大略有些相近,南方就千差万别了。吴、湘、赣、客、粤、闽,各不相通,甚至单在一个福建省,就有所谓的八闽互不相通的说法。

就算是全都使用同样的语言和口音,也还有多音多义字,语音、语调和变调, 连读、分词和断句,修辞和语气等诸多影响。

这些复杂性和不确定性,全面影响到语音交互的三个主要技术领域:语音识别、语义理解和语音合成。这三个领域,是语音交互的技术基础,包含输入、理解和输出三个阶段。任何一个环节的问题,都会造成沟通故障或者降低使用者体验。[1]

 

2.2 产品的引导性弱

人们看到椅子会过去小坐,看到门把手会知道推或拉,看到地铁里的扶手自然会去抓握,唐诺曼告诉我们这些是示能,还有一些设计师可以加上去的意符。在使用一个GUI系统时,界面往往在引导人们,确认点这里,取消点那里,甚至会用闪耀的动画告诉你点这里可以关注这个有意思的微信公众号。[2]

然而语音是一种不可见的东西,在发生交互之前,你不知道你面前的智能产品能够透过语音交互提供哪些服务。即使在交互过程中,你也仍然不能了解到它的边界,到底什么可以什么又不可以。你需要认真的倾听,才能在自助语音电话服务里发现你要的服务,或者知道原来它没有这项服务。

引导性弱,更加剧了语音交互作为辅助交互手段的配角地位。

 

2.3 对使用场景比较挑剔

移动智能终端的设计需要考虑不同的使用场景。对比GUI,VUI有着更多的使用场景限制。

首先是不能在太过嘈杂的环境中使用,噪音一大,语音识别率就会直线下降。

其次,在一些相对安静的公众场合,语音操作会打扰其他人,并泄漏使用人的私密。不论是在图书馆、会议室,还是在医院、银行,为了避免尴尬,用户都不太会选择语音交互。

 

 图1用户场景分析

 

2.4 语音的时间一过性强

虽然声音本身具有空间性(震动、方位、传播)和时间性,属于四维“物体”,但语音对于某一受体的呈现却仅有时间性,即一维的。对比视觉,它的呈现具有很强的一过性。你稍一分心漏掉了某些信息,就可能丧失理解机会。这也是为什么,很多电话语音服务系统,都设计了重听这一选项。GUI 可以在你选择到某一层级的菜单后停在那里,等你插入执行另一事情后回来继续,但语音不行。

这个一过性,不仅表现在人倾听设备上,设备倾听人也是一样。人们在语言交流过程中,并不是像演员背台词一样全都非常流利,很多时候即使不口吃,也会出现拖延、忘词、重复等问题。然而很多语音交互产品设计的结束识别时间较短,会认为用户已经说完了命令,开始去“思考”执行了。

 

2.5 用户心理期待较高

语音交互不仅技术难度高,人们的心理期待也很高。谈到语音交互,人们通常就认为产品具有了相当程度的人工智能,不自觉的就提高了自己的心理期待。一旦遇到产品不那么智能和“通人性”,就会有强烈的不满,同时也会大幅度降低再次尝试的可能性。

 

3. 语音交互的优势

语音交互是有一些限制性缺点,但也有不少明显的优势,这也是为什么语音交互会成为当今IT行业和人工智能领域的宠儿。

 

3.1 更加亲切、自然和直觉

语言的产生早于文字的产生很多年,人们首先利用语言的交流建立了更大的社群从而赢得了更好的发展,之后才在口口相传中逐渐产生了文字记录的需求。每个人的成长也都是先学习如何语言交流,再去学习如何进行书面表达的。这些都注定,语音交流会比文字和符号体系来得更加亲切、自然和直觉。

亚里士多德说过,“口语是内心经验的符号,而文字是口语的符号。” 虽然在象形文字系统中,言为心声,书为心画(西汉学者扬雄《法言.问神卷》),但真正由心画形成的象形字、会意字占比非常低,且随着社会发展越来越低。形声字占比在《康熙字典》时期已达90%,汉字发展中,形声字也是新增字的主流。[3]

由内心的意思开始,表达成语言只是一层转化,而转变成文字需要两层转化。所以,以符号和文字为基础的GUI体系,不如以语言为基础的语音交互来得更加得亲切、自然和直觉。

 

3.2 无显示界限

GUI有着明确的显示界限,不论是移动便携设备的3吋、5吋、6吋、10吋,还是台式设备的15吋、21吋、40吋、50吋,还是更加大型的投影类设备,都有明确的界限。在这有限的显示空间内,菜单的展示必然有限,所以GUI通常以菜单树的形式进行展示,有着众多的层级。

然而VUI就没有这个显示界面的限制,所以,理论上可以有无限多的一级菜单。在交互过程中,设备听懂了就可以直接操作,无需去一级一级选择。这会让交互过程变得更加快捷,有着直达目标的优势。

 

3.3 无视觉界面干扰

不论你设计多么好的语音交互产品,也无法短期改变目前人们以视觉为主的浏览现状。如果把VUI作为辅助工具,因为没有弹出界面或切换界面的干扰,无需中断当前的浏览操作,这无疑会成为一个比较美妙的使用体验。

 

3.4 可操作距离长

GUI的操作距离一般都比较近,除非是通过遥控器、无线鼠标等进行操作。但对于本文所讨论的移动智能产品,动作手势的操作距离一般都非常小。比如最常用的触摸屏,顶多就是一臂之长,距离眼睛不超过1米。使用手势操作,需要摄像头能够直接“看”到的位置,距离虽远些,限制也很大。

相较于以上的情况,VUI的可操作距离明显加长。在智能手机上通过增益加强的麦克处理,语音可操作距离可以达到3-5米,相对专业的会议系统可以超过10米。

 

4. 语音交互设计原则归纳

前面讨论了利用声音作为媒介的语音交互的一些优势和劣势,接下来配合一些案例,归纳出以下几条设计原则,以便扬长避短,设计出更加美好的用户体验。

 

4.1 减少界面独占

在以GUI为主要操作手段的智能设备上,语音交互开辟了多一维度的操作手段,它的优势就是可以并行而不独占,由此可以大幅度提高效率。减少界面独占是个非常重要且容易忽视的设计原则。

在进行语音交互的设计过程中,很多人都是自然而然地想到语音可以支持“免提”,可以不用手,从而忽略了对视觉界面的思考。比如,苹果的Siri就犯了这个设计错误,在启用了语音交互之后,Siri就独占了手机屏幕,无法进行其他操作了。

避免界面独占会带来非常美好的设计体验。

举例来讲,你在用手机浏览微信微博,此时你想要将音乐打开,如果使用GUI,你需要退出微信微博,回到主菜单,找到音乐播放器,打开并选择歌曲和播放。不仅繁琐,而且需要中断当前的操作。而有了VUI帮助,就简单多了。只需激活语音系统命令其播放某某音乐即可完成操作,整个过程非常快捷。此时如果语音独占了整个屏幕界面,就无法体验这种顺滑了——你同样需要中断当前的浏览,等待音乐的开启。

中兴手机的语音助手,就采取了一种非常明显却不独占界面的一种提醒方式——当用户通过语音命令或其他手段激活语音助手时,除了“叮”的一声提示音,在屏幕顶端还会呈现一个悬浮提示,在声波动画上面还有“请说语音指令”的提示字。而悬浮提示之外的广大的屏幕区域,仍然是可以随时进行触摸操作的。

图2 中兴语音助手与苹果Siri界面(右1)

注:左1为中兴语音助手的logo,体现了音与触摸的结合

 

图3 直达目的的设计(对比流程图)

 

当然并不是说任何情况下都不能界面独占。在一些情况下,比如需要用户检查确认时,或者不建议用户进行其他操作时,可以采取界面独占的形式。此时利用GUI的肯定明确,却又可以加快交互进程。

举例来说,当你要打电话给一个拥有多号码的联系人时,仅仅通过语音呼叫名称是无法明确呼叫对象的,还需要指明具体是哪个号码。此时,为了效率更高,可以给出一个全屏界面,把所有号码列出,并表明序号,你只需瞄一眼,就可以告诉语音助手拨打哪一个,或者快速用手触摸一下目标号码即可。

 

图4 图书管理员与图书馆地图

 

4.2 示能与引导

在我们的现实世界里,我们能够看到这些物体的边界和示能。GUI世界里也一样,看到滑块你会去划,看到图标你会去点,人们已经有一些约定俗成的示能和边界。

这就像是你去图书馆,根据图书馆的地图说明去寻找图书,看到地图你就明白,这个图书馆里什么区域有啥书,你该从什么路先过去,在哪里找到洗手间。但你不会在这个地图上寻找如何才能回你家,因为地图有它的示能和边界,明确告诉你它有啥信息没啥功能。语音交互就好像你去问一个人,近处的洗手间在哪里,哲学类的图书又在哪。你希望你碰到的人都像是职业的图书管理员,对图书馆的一切都了如指掌。但有时候你找不到他们,只好问一个陌生人,或许他对此图书馆完全不了解,那你的问路体验就会非常不好。所以第一重要的是,让你的语音助手成为无所不知的“图书管理员”,在你的产品上尽可能的扩大知识和能力边界。

 

4.2.1 全能

根据产品,尽可能大的设计语音交互的范围。这包含功能定义和语料设计两方面的全能。

以手机产品为例。通过语音要能够进行全功能全流程的操作,比如打电话、发短信、拍照片、启动关闭应用、更改设置、新建关闭闹钟日程提醒等。结合云还能进行讲笑话、查天气、查新闻、订餐订车等其他的服务。功能做得越全面,消费者长期使用的可能性越大。

语料设计也非常重要。同样一个操作,每个用户说话的方式是不同的。比如播放音乐,你可以说“打开音乐”、“播放怒放的生命”、“播放汪峰的歌”“给我来首歌吧”等祈使句,也有人说“能播放汪峰的歌吗”之类的疑问句,语料设计越全,用户尝试成功的可能性越大。

 

4.2.2 引导

在GUI为主导的今天,利用一切可以用的视觉、听觉提醒,做好语音交互的引导,让用户在尝试中获得更高效率,是我们做设计时需要认真做好的。

首先,在视觉提醒上,除了普通的帮助之外,还可以有场景化的处理,而且处理好了,会给人非常智能的使用体验。

比如当用户左右划屏,却没有其他操作,那说明他可能是在找应用图标。此时,很友好的提醒他,可以用语音快速找到,既能引导学习,又不太过叨扰。这就是基于场景的语音引导设计。

还有,在音乐模块里翻来翻去,系统就会提醒可以尝试说出歌曲名和歌手名来寻找想听的歌,甚至通过哼出曲调来选择;在图库模块里找图,系统可以提醒尝试“给我看上个月在无锡拍的照片”这样一句话找图的功能;在联系人模块上下翻动,系统可以提醒通过语音快速拨号,等等等等。这些都是尝试性引导。如果能够成功让用户尝试并成功解决他们的问题,用户会逐渐习惯并爱上语音交互。

其次是语音提示,主要是在首次使用或者出错时。比如,当你第一次启动驾驶模式,他会告诉你基本的操作方法,比如如何激活,如何命令等。当手机没有完全听懂用户指令时,需要让它根据听到的部分词汇去猜测用户的指令,然后通过缩小范围的设问句形式问出来,或者承认没听清的同时,再给用户一次引导“没有听清,您可以这样说****,或者****”。

引导做得好,最重要的是提醒时机的选择和提醒内容的设计。时机选择和场景理解准确是前提,提醒内容,则需要选择通过触摸操作十分繁复而语音操作则十分简单的任务,这样才能快速提高用户对语音交互的兴趣和粘性。

 

图5 中兴手机语音交互不同引导界面

 

4.3 消除尴尬感

尴尬是一种情绪,相对比较权威的定义是:当个体违反了社会习俗(有时代和地域特征)而引起了预期外的社会关注(要有观众),从而激发个体作出一些可能会取悦他人的顺从行为(自认为不好意思)时的情绪体验。[4]

引发尴尬的通常有:糟糕的表现(唱歌跑调)、身体笨拙(红毯摔倒)、认知错误(认错人)、不恰当的行为(衣着不当)、对隐私的无意侵犯(误入房间)、惹人注目(突然成为被关注的焦点)等。语音操作经常会有以上的一个或者多个问题,所以很多人会觉得用语音操作是一个比较尴尬的事。[5]

结合自己的设计经验和案例,我认为消除尴尬感最重要的就是避免糟糕表现、避免不恰当行为、避免过于惹人注意这三点。

 

4.3.1 避免糟糕表现

避免糟糕表现,主要是提高语音交互技术,改善目前的一些问题。比如唤醒不成功:不论你怎么呼唤,手机就是无动于衷;误唤醒:正在跟他人聊天,手机突然说“在,有什么可以帮您的?”;识别不成功:“对不起,我没有听懂您在说什么”或者命令A却执行了B;操作无法完成:网络差、本地音乐库没有这个音乐等。硬件改良算法优化去改善以上问题不是本文讨论重点,不再赘述。

然而设计也可以部分改善此问题。

比如,根据场景进行智能判断限定范围(见3.4),或者用选择性问句限定答复范围,就像“接听还是挂断”,“确认还是取消”,实验证明超过八成的受访者会沿用问句的用词,而不是新增语料答复,这就大幅度的降低了识别的难度。

 

4.3.2 避免不恰当行为

避免不恰当行为,对操作提出了更加自然的要求,这就需要增加其他自然交互的技术。比如语音拨打电话的操作,就是个利用接近感应、陀螺仪和语音交互共同合作消除尴尬感的典型案例。以往的语音交互,你需要先说“你好中兴”或者“Hello Siri”,得到反馈后,再说“打电话给某某”。即使成功率很高,也没有多少人在公共场合操作,因为感觉非常傻。中兴手机的智能语音拨号,就完全避免了这种尴尬——你只要把手机放在耳边,手机就会问你“打给谁”,你答复“王老五”,这号码就拨出去了。

当然,行为恰当不恰当,具有强烈的社会和时代属性,旧时恰当的长袍马褂放到现在就像演戏,现如今用蓝牙耳机打电话搁在古代就会被认为是疯子在自言自语。今天语音交互的一些不习惯,将来可能会成为主流,交互设计师的工作将会从视觉逐步转到更多语音上来。但在目前的情况下,我们只能顺应当前社会的认知和文化,设计出让大家觉得自然和习惯的交互体验。

 

4.3.3 避免过于惹人关注

避免惹人关注对于语音交互来说是有难度的,因为你在对机器说话时,无法避免会被别人听到——即使真的无人关注,也很难让你觉得无人关注。

总结下来,减短激活语料、暗号指令和采用更自然的交互过程都是行之有效的方法。

首先,减短激活语料,可以明显降低关注。当你通过语音激活智能终端时,通常需要一句话的反馈,比如“在,请说语音指令”等。当众激活,很难避免成为关注焦点。这种语料设计,适合放在驾驶助手之类的私密场合使用的工具上。然而其他的操作就不是这样了。比如进入地下车库,你想打开手电筒为大家照明,这时候快速有效才是要点,只要通过“叮”的一声,或者震动一下,在丝毫没有引起关注的情况下,就可以迅速语音调起手电筒。

暗号指令也是一种比较好的方式。用户可以通过录制自己对某些应用的启动口令来设置暗号,当需要时快速启动。比如用“准备出发”来启动地图应用,用“开灯”来打开手电筒等等。这不只是避免过于惹人关注,在大家慌乱的找手电筒应用的时候,你一句“开灯”打开手电筒,会让原来关注带来的尴尬感变成自豪感——看,我这个手机多牛!

采用更加自然的交互过程,上述利用接近感应、陀螺仪和语音交互共同合作拨打电话的案例能够说明,不再赘述。

 

4.4 场景智能

假如你跟一个完全不了解化学的人去解说碳酸氢铵或是三聚氰胺,他可能无法理解你的语言。所以语音识别和语义理解通常会分门别类,就好像专业技术人员也有分工一样。因为语音交互不是菜单内选择,它有无限的可能性。但在移动智能终端的有限硬件软件网络条件下,把这无限转化为有限,基于场景限定识别内容,可以大幅度提高智能终端的理解能力,这就是场景智能的概念。

举例来说,你可以在音乐模块提前设定更多的音乐知识,比如歌手名、组合名、歌曲名等,也可以让联系人模块提前认识所有联系人的名字,这都可以让终端在模块内变得更加聪明。而且,语义的理解容错率也可以大幅度提高。比如你的联系人里有高峰,你恰恰又喜欢听歌手高枫的歌曲,那在音乐模块的操作里,可以更多理解为针对歌手高枫的操作,在联系人模块里,更多则理解为针对联系人高峰的操作。

 

4.5 复杂操作与连续命令

因为语音交互具有不分层级直达目的优势,所以非常适合用来进行复杂操作和连续命令,做好这样的设计,可以大幅度提高用户的粘性。[6]

比如,“给我看上个月在无锡拍的照片”,“提醒我明天早上9点跟客户开会”,“设置5分钟以后的闹钟”等,都属于复杂操作。在GUI体系中,你需要打开图库,设置为根据地理位置排序,然后打开无锡,再划到上个月的时间点。设置日程和闹钟也都一样,都需要进入某个应用并进行多次点击操作才行。语音交互的操作,大幅度的提高了效率。

连续操作是指指令和内容一起发出,比如“帮我翻译,请问去机场怎么走”,“发短信给老婆,今晚加班,不回家吃晚饭了”等。这一类的操作,不仅提高了些效率,更重要的是,它给用户更加智能的感受,因为这让手机感觉更像一个真正的私人助理,而不是机器。

 

4.6 可随时中断

这条原则非常容易理解,人与人在交流时,是可以随时中断的,机器也需要做到。但实际很多产品在设计时没有考虑这个,成为导致用户讨厌或离开的原因。比如,收到短信,语音助手开始读给你听,就是这样的场景,需要随时都可以中断或切换到下一条。播放音乐也是如此,在播放A曲目时,随时可以被要求“切歌”或者“暂停播放”。

 

4.7 可学习性

可学习性也是人们对于智能产品的一个基本要求,你用产品的时间越久,产品对你的了解就越多,你用起来也就越顺手。

技术上的可学习性主要体现在对你的口音、语音语调的适应性上,但我们是针对交互设计的,所以主要讨论如何让产品越来越了解你上。

比如你发出指令说“导航去公司”。如果是第一次使用,手机不可能知道你的公司在哪里,就会问你,“请问公司在哪里?”。你回答过一次后,它就不会再问你了。这就是最简单的可学习性的体现。

你在设计语音助理时,就需要规划好一个关于用户的数据库:地理位置的,家住哪里、工作在哪等;生活习惯的,作息如何,运动如何等;工作性质的,是否常出差,出差去哪里等……

其实不仅仅是语音交互的设计,语音助理应该能够透过智能终端的各种模块去理解用户,日程、闹钟、to list等本地应用不在话下,淘宝、京东等第三方应用也需要去了解,这样的助理,能够真正懂得用户所需。

 

4.8 情感化

情感化是智能终端交互设计的一个遥远的梦,一直很美好从未被接近,因为人工心理的成熟度远比人工智能差得多。就跟本文很多的设计理念和原则一样,基于目前的技术能力,用设计的方法,让产品用起来感觉更好一些,是设计师的主要思考。

虽然暂时无法做到真正的情感化,但通过丰富和灵活的语料设计,带有拟人味道的自定义项,可以带来接近情感化的设计。

以语音激活为例。就像人与人的对话一样,你需要叫一个人,得到“哎”的一声反馈后才开始真正的交流。机器也是这样,需要激活的操作。很多智能语音助手需要你喊一个固定的指令来激活它,比如“Hello Siri”或者“你好中兴”。这显得非常刻板和不友好。如果可以让用户给语音助手录制姓名,类似给一个新养的宠物起名字,就一下亲近多了。

情感化的设计通常有行为灵活性、决策自主性、思维创造性等特点。在我的一个专利设计中,就把这个起名字过程做成了多主题方案——你可以选择命名的主题方案,整个互动就可以在一个主题内智能和有趣地展现的。调研发现,人们命名一个语音助手,最喜欢的几个主题是宠物、奴才、帝王和人名(女人或男人)。根据这些主题做好设计后,用户可以感受到不一样的快乐体验。比如,用户把语音助手命名为“三德子”并选择了奴才的主题,当他喊出“三德子”时,激活提示一会儿是“奴才在”,一会儿是“皇上吉祥”,这一定是一个非常有趣的体验。

 

5. 结语

语音交互是一种更加自然和亲切的交互方式,虽然在当前的技术条件下,人工智能和人工心理还没达到很高的程度,但在未来,语音交互一定会替代图形交互成为主流的人机交互方式。

同时我们也需要了解,语音交互对比图形交互,有优势也有缺陷。在目前的技术条件下,为了能让更多用户习惯使用语音交互,设计师必须要扬其长避其短设计出更加美好的用户体验。减少界面独占、示能与引导、消除尴尬感、场景智能、复杂操作与连续命令、可随时中断、可学习性和情感化就是作者总结出的行之有效的八条设计原则。尤其是前面三条,阐释了中兴手机语音交互的核心差异性亮点背后的设计思考。

当然,这几条设计原则,是针对于目前智能产品的计算能力、网络速度以及语音识别技术的现状而提出的,有着技术发展的局限性。而且,由于所涉及的产品形态单一,这些设计原则本身也一定有些片面,还需要继续发展完善,期待同行专家能够提出不同意见,共同研究提高。

 

参考文献

[1]  Yaxin Zhang. 语音交互系统的基础、现状和趋势. NUANCE 资料2014.5

[2]  唐纳德·A·诺曼.设计心理学[M].北京:中信出版社,2015.5

[3]  亚里士多德(方书春译). 范畴篇 解释篇[M]. 北京: 商务印书馆, 2003.7

[4]  孙艳华、马伟娜. 尴尬情绪的研究述评[A]. 健康研究, 2009.12 第29卷16期: 484-391

[5]  Michelle N. Shiota, James W. Kalat(周仁来译). 情绪心理学[M]. 北京: 中国轻工业出版社, 2015.3

[6]  安顺钰.语音手机的设计思考[A].UXPA论文集,2015

 

 

 

2   喜欢

操作成功!
请登录您的邮箱获取新密码,请尽快修改您的新密码!