沪ICP备06058754号-1
语音办公助手VUI交互设计研究

曾丽霞 康佳美 孙甜甜 孙传祥

2019-07-09

用户体验 文集

2018年学术论文欣赏

本文段落精选

 

随着AI技术的成熟以及相关产品的不断问世,各大媒体和互联网商业巨头们开始对AI投入更多关注度。

 

通过对VUI交互优劣势的调研,以及参考谷歌推荐的设计流程,语音交互产品正向着更加自然的交互形式不断迈进,各种不同的使用场景也在不断被挖掘。但是,VUI设计流程还处于探索阶段,设计方法和原则需要不同的设计实践去验证和优化。

 

 

语音办公助手VUI交互设计研究

 

曾丽霞 康佳美 孙甜甜 孙传祥  

        百度网络技术在线(北京)有限公司

 

摘要:

 

近些年,随着AI技术的成熟以及相关产品的不断问世,各大媒体和互联网商业巨头们开始对AI投入更多关注度,其中,VUI(对话式交互)产品作为一种相比GUI更加自然和普适、对用户感官更少的占用的交互方式,已经成为各大巨头进入AI市场的一个主要的切入点

VUI产品主要通过语言来建立人与机器沟通的桥梁,解放了双手后的用户认知与用户体验,与在移动端界面的操作是迥然不同的。在用户的使用场景、交互行为等方面与GUI产品存在较大差异化,交互场景更加复杂。VUI产品的交互设计实践中的挑战,更多来自于对交互设计流程、设计原则、设计方法的重新探究与定义。

 

关键词:VUI  智能语音  对话式交互  用户体验

 

一 语音交互

1.1 语音用户界面(VUI)简史

 

20世纪50~70年代是VUI的技术的萌芽阶段,其主要标志是AT&T贝尔实验室开发的Audrey语音识别系统的出现;第二阶段是20世纪80年代,这一阶段是技术突破阶段。智能语音技术研究开始转向基于统计模型(HMM)的技术思路,并再次提出了将神经网络技术引入语音识别问题的技术思路;20世纪90年代到21世纪初是第三阶段,也是VUI的产业化阶段,智能语音技术由研究走向实用并开始产业化,以1997年IBM推出的ViaVoice为重要标志。2010年以后的第四个阶段,是快速应用阶段,苹果Siri的发布是重要的引爆点,智能语音的应用由传统行业开始向移动互联网等新兴领域延伸。

 

图1 VUI简史(图片来源:人人都是产品经理)

 

其中,20世纪90年代出现了交互式语音应答(Interactive Voice Response,IVR)代表了VUI的发展的一个重要时期,它可以通过电话线路理解人们的话并且执行相应任务,现在三大通讯运营商的机器客服依然采用了这种语音应答的方式。另一个重要时期是各大公司都开发了自己的语音助手,可以同时使用语音和屏幕交互,是一种多模态的交互方式。例如微软的cortana,谷歌的Google OK和苹果的Siri。这些语音助手集成了视觉和语音信息的app。最近两年,例如Amazon echo和Google home这类的纯语音交互的设备,这些智能家居音箱受到市场的青睐。在未来的生活和工作场景中语音交互是一个新的入口,它提供了更灵活的交互方式。

 

2 智能语音设备

 

二 VUI设计相关问题解析

2.1 我们已经有这么多APP为什么需要语音交互

 

这是在开始一个VUI设计之前设计师需要明确的问题,也是设计的最原始出发点和动力。目前,语音交互产品有着区域与APP的显著优势,包括:

 

(1)新颖性

到2017年,苹果应用商店中的软件数量已经达到了220万个,这些庞大的应用程序种类涵盖了生活中的方方面面,但是这些应用程序的操作交互主要是基于二维界面,具有典型的GUI产品特征,在排除种类特性的前提下,用户的操作行为同质化程度较高。VUI设计可以突破二维界面的限制,从“眼观”为主到以“嘴说”为主,以多种硬件形式为载体,用户可以在更加立体化的场景下,在弱可视化或非可视化下更加自然地实现与机器之间的交互。

 

(2)简化性

VUI产品的用户主要通过语音与产品对象进行信息的交流,相比于在固定的二维界面上的手指输入,语音交互能够将操作行为扩展到三维空间,解放人的双手;另一方面,语音操作的任务处理流程是单一线性的,没有产品架构的限制,用户可以快速跳转到目标任务,行为路径只有起点和终点,免去了二维界面下的信息架构复杂性问题。这些都将极大简化用户的操作流程,为生活提供更多的便捷性。

 

(3)助力搜索

在PC时代,百度网页是所有搜索的入口,但是随着移动应用的普及,搜索的行为更加垂直化,每种产品都提供各自内容的垂直搜索内容,命中更加准确的信息;但是这种垂直搜索的结果的不足之处便是当用户需要其他信息是,需要打开各种各样的应用开开启搜索功能,分散功能入口让用户的操作行为产生停滞。

 

语音交互产品尽管会区分智能家居、音箱等类型,但是他们都将搜索的入口会再次聚合,一个语音产品可以作为多种垂直产品的搜索入口,用户通过智能音箱来搜索天气、歌曲、出行信息等各种内容。VUI将搜索的功能再次聚合,并通过更加快速的途径将信息送达给用户,提供区别于移动端搜索的更大价值。

 

 

2.2 VUI交互优缺点明晰

 

尽管VUI交互有着很多天然的优势,但是这些优势与劣势都是相对存在的、有条件的,每一种优势都对应着一种需要克服的劣势的存在。

 

(1)操作路径短-操作精度差

VUI的对话式流程,跳出了APP中的信息架构的限制,用户可以直接通过对话快速触达目标,获取预期的反馈,用户的实际操作路径从多层级的递进变为了两点之间的直接命中,极大方便了信息的获取流程,但是,这种路径类似“两点一线”的对话流程中往往存在“差之毫厘谬以千里”的问题,因为缺少严格的层级逻辑与操作节点,信息是获取变成了一种“一次性”的流程,缺失了中间不断校正和判断修复的节点,导致用户最终获取到的结果完全不可控;另外,不同的语言表达形式、语法特征,甚至不同地区的语言风格,都会对VUI产品的信息录入和分析判断产生影响,最终得出的结果可能与预期的内容完全是背离的。

 

(2)解放双手-牺牲隐私

VUI交互一个显著的特征就是信息录入方式的改变,用户无需使用手势即可享产品录入信息指令。但是,相比与二维屏幕上的内容,语音本身对隐私的保护始终存在问题。除去外部场景下,对话流程中的内容会被环境中的其他用户获取,更重要的是同步会被其他不相关的设备所“监听”,这种隐私问题在设计开发阶段,是需要重点关注解决的。

 

(3)近远距离操作-受限制的反馈

VUI产品的对话流程,让用户不需要紧盯着屏幕就可以完成目标任务,但是产品给用户的反馈主要依赖“语音”这一唯一的途径实现,相较于移动端的视觉、语音、震动等多种形式结合的反馈形式,VUI产品的反馈途径收到了自身产品特征的限制。

 

(4)操作成本低-环境要求高

VUI交互流程中,用户只需发出语音指令即可完成全部操作,这种脑力和体力消耗都很低廉的行为,却对外部使用环境的要求十分苛刻。用户可以再嘈杂的环境下自如的使用手中的移动设备,但是却无法顺畅地使用VUI产品,因为来自外部的信息干扰已经严重影响到了信息获取的精确性,这也是为什么,当前的VUI产品更多的展示形式是智能家居或者智能音箱,这些都是放置在家庭等相对安静的环境中的产品,所处环境本身也适合对话流程的进行。

 

(5)自然的交互方式-不自然的“脑力”

所有的操作流程以人们最熟悉的“对话式”的方式实现,像两个普通人之间进行一段对话,这在一定程度上实现了自然的交互,用户本身的认知成本降低了,但是伴随而来的,是记忆成本的增加。对话式流程中的信息都是简短的、多轮的,用户实际上在每轮的对话中获取的信息都是点状的,多轮对话中,用户需要在无法通过页面文字进行回溯的情况下自己去串联信息,这种额外的脑力消耗,也是不可避免的。

 

 

2.3 VUI设计的挑战

 

对于习惯GUI设计的设计师而言,在转向VUI设计的过程中,存在很多差异和“挑战”。

 

(1)“有边界”设计到“无边界”的设计

在设计GUI界面时,设计师和产品经理需要梳理用户在界面内的完整操作流程,穷举用户在固定像素界面内所有可能的操作,以达到设计恰到好处的用户反馈的目的。但是语音交互用户的信息输入是没有边界的,用户可能输入的信息将远远超出你可能的穷举的范围。从“有边界”的设计到“无边界”的设计,触屏交互的设计规范在语音设计过程中将完全失效。

 

(2)“近场”交互到“多场”的交互

GUI交互行为集中在二维页面中,属于典型的“近场”交互,用户的操作在一个固定的区域完成;语音交互则涵盖了多种距离的场景的识别,根据距离分为近场识别、中场识别和远场识别三种情况。近场交互包括度秘、Siri等移动端的语音功能;中场交互包括车载语音系统;远场交互主要指当前流行的智能音箱和智能家居产品等,远场交互产品与GUI设计的差异最为显著,而且设计难度更大。目前的VUI设计也主要开始在远场交互中开始发力,但是当前的远场语音交互产品大部分处于冷启动周期中,只有在积累了一定数据后才可以更好提升产品体验。

 

(3)语音识别正确率

语音识别正确率的的常用指标是识别词错误率(Word Error Rate),这也是VUI产品好用性评估的一个方面。由于隐马尔可夫模型、机器学习和各种信号处理方法的应用,以及庞大的计算资源和训练数据的支撑,语音系统的错误率有较为显著的降低,甚至可与专业速记员比肩。语音识别的正确率能够有效提升产品的使用体验。

 

(4)语义识别

如果你和语音助手进行过对话,会发现其语义理解还停留在对固定模式识别处理,产品只会根据用户话中特定的词做出反应,对于超出其理解范围的相似词汇,不一定能给出正确的回答。目前来讲,遇到的问题至少有分词、歧义和未知语言处理。中文不像英文单词有空格分开,而且歧义性高,对AI有更高的要求。例如和Siri说「打开饱了么外卖」,在它没有学过「饱了么」这个单词的情况下,可能答复就是“对不起,我没听明白”。

 

(5)多轮对话问题

我们觉得目前的一些语音产品易用性很差,有时是因为它违反了人类自然对话的原则。人类对话看似简单,但会根据对方的背景和自己掌握的信息,调整对话内容,上下文之间也会有呼应关系。但是现有的很多产品,其对话缺少关联性。语音助手不理解上下文背景,只能进行单轮对话,看似进行的多轮对话其实也只是多个单轮对话的组合,多轮会话中的内容在逻辑很难串联起来。

 

(6)缺乏持续使用动力和核心场景

很多人在新鲜感过去后,会立即对语音交互失去兴趣,回归到触控为主的交互方式中。目前,语音交互缺乏只有其才能实现的核心功能,缺少核心竞争力和不可替代性

 

 

三 VUI交互设计原则

 

VUI的设计流程与GUI的具象使用方式有着显著的不同,核心的设计要点也异同点。目前相对权威的VUI设计原则来自于谷歌对话式交互规范,包含五个核心的设计要点。

 

(1)创建用户画像;

与GUI设计流程一致,在设计前需要构建目标用户的画像。根据用户画像的特征,来设计对话流程在各个维度上的展示形式,包括对话的节奏、语调、语气、语速等属性。

 

(2)突破框架去思考;

机器与用户的对话流程存在多种可能性,语言逻辑系统相比与页面操作,会衍生出各种的歧义和可能性,VUI对话流程的设计不能是单一、线性的,而是要考虑到多种可能性,兼顾以外状况。

 

(3)考虑用户场景;

根据用户场景来满足用户的期望和意图。移动端的操作将用户操作的注意力设定在了屏幕范围之内,因此用户场景考虑的范围较小,但是VUI产品更多是近远距离操作,用户所处的环境、此刻用户所进行的行为、面对的设备等,都会回对话流程的体验产生更加显著的影响。移动设备可以再目标导向的前提下,实现某一具体功能,VUI产品则是需要在满足用户期望和意图为导向的前提下,考虑不同场景下更好的实现方式。

 

(4)对话不存在“出错”的概念;

移动端的界面操作会出现“错误”“警告”等情况,但是用户的语言表达会是各种各样的方式,因此不管用户怎么说、如何说,都不能把它当做“错误”来处理。对话式流程中,要注意将用户的语音内容转化为可对话的机会,实现顺畅自然的交互效果。

 

(5)站在更高的角度去思考;

VUI作为新的创新方式,必然会有更大的用途,设计师和开发人员,应当站在更高的角度去思考VUI的应用体验,打破当前的思维局限。VUI产品独有的交互特征,不应只是停留在为娱乐类产品中提供更多游戏化方式的截断,在人们的衣食住行的日常生活、在线的多维教育、医疗健康恢复与护理、军事等领域有更大的价值可供挖掘,能够帮助社会创造更大的价值。

 

 

四 VUI设计流程---以语音办公助手设计为例

 

语音产品的无边界性,会让习惯了GUI界面的设计师有一些不适应,这时就需要一套设计新的设计流程和设计方法来作为指导,参考谷歌推荐的设计流程即:选择正确的用户场景、创建用户画像、撰写对话、进行测试、实现和迭代。与体验设计流程(用户画像、情景分析、设计、测试和开发实现)区别不明显。前期的流程跟GUI设计一致,差异点在于撰写对话和进行测试阶段,在界面设计中并不会涉及到自然语言对话的撰写和设计。并且设计语音产品时,不仅需要考虑用户画像,还要考虑到虚拟角色的画像。下面按照设计流程重点讲述一下语音办公助手的设计过程。

 

3 语音产品的设计流程

 

4.1 选择适合的使用场景

 

在“互联网女皇”Mary Meeker的2018年度的《Internet Trends》报告中显示语音技术正处在一个转折点上,其原因是语音识别的准确率达到了95%。比较有代表性的是亚马逊Echo音箱的销售量的爆炸式增长。调研显示美国人使用语音的主要是为了解放双手和眼睛,其中应用最多智能家居场景、其次是车载和在路上。

 

4 使用语音产品的原因和场景(图片来源:kpcb.com/Internet Trends)

 

语音办公助手挖掘的是办公空间的语音交互场景,目标是辅助用户办公以提升效率。其采用硬件+ APP相结合的形式,具备日程管理、预订会议室、发会议邀请和语音备忘录等功能。以语音预订会议室的应用场景为例:根据预订会议室的策略和用户习惯,预订会议室的场景有办公空间移动、工位静坐、路上行走和乘坐交通等情景预订会议室。

 

5 语音预订会议室的场景(图片来源:kpcb.com/Internet Trends)

 

 

根据前期测试结果显示,在办公区行走的情况下,分别使用语音办公助手和GUI移动办公APP进行预定会议室操作,语音办公助手效率更高,采用会话式的语音交互形式,用户在行走过程中,只需要2轮交互即可便捷的完成预订操作,而在GUI移动办公APP的触屏交互过程中,用户则需盯着屏幕的列表进行筛选然后预订会议室;

 

6 移动办公APP和语音办公助手预订会议室

 

4.2 创建虚拟角色画像

 

语言更加容易表达情感和思想,形象化构建角色特征。用户在于产品的对话过程中,可能通过产品的语气、语速、语法等内容,在脑海中构建产品的角色形象,加深对产品的认知和理解,这也有利于用户通过预期的预压交流方式与产品进行对话。从这个结果向前回溯,就会发现,事先构建产品的虚拟角色形象是多么重要。如果设计师没有设定产品的虚拟角色形象,那么用户依然会在认知中构建一个产品形象,但是这个抽象化的形象在每个用户而言都是不一样的,不可控的,产品所传达的品牌特征和属性就会被稀释,很难达到有效的品牌传播效果。

在语音办公助手的角色构建过程中,我们定义了她是一个专业女性助理的形象,年龄在27岁左右,性格特质是亲切而又严谨,语音特质语气温和,语调平缓,话语节奏平稳。用于辅助日程管理和办公引导,现在开发设计中的功能有:预定会议室,会议邀请,日程助手,语音备忘等,未来会软硬结合的形式来运行,如跟小度在家和智能音箱合作等等。

 

7 语音办公助手的和形态

 

4.3 撰写对话

 

在撰写对话过程中,重点要关注口语化的表达与预估行为的多样性问题。由于语音办公助手产品是面对工作流程的,相当于一类垂直产品,所以尽管用户在对话过程中使用的是口语化的内容,但是实际操作过程中,口语化的语法和词汇与书面化内容差异并不是很大,如“预定会议室”,基本和书面语法无异。相比于工具类的语音产品,语音办公助手在将用户的口语化内容翻译成为书面化的、为更加精准的内容过程中,出错率较小。

尽管口语化的内容对于语音办公助手产品而言处理难度较小,但是在预估行为多样性的问题上依然要重视。如语音交互产品目前遇到的通用问题就是:如何教会用户跟语音产品说第一句话。因此首页的智能引导尤为关键,语音办公助手最初的设计思路是引导用户问话,例如教会用户说出类似“预订今天下午2点的会议室”的话术,V1.0版本的测试后,发现很多用户并不会按照界面提示的用语来问话。Google的设计指南中也提到这一问题,即不要试图去教导用户,让他们按照安排好的台词进行交互,这违背的自然的会话原则。基于目前微信等社交APP上沟通,都习惯用短句子,功能介绍时,采用短句子,同时结合底部功能提示入口(hint),例如:语音办公助手在直接询问用户 “请问您要什么时间什么时候的会议室?”,此时用户就有了一个明确的会话的方向了。

 

8 语音办公助手的会话引导

 

4.4 进行测试

 

语音产品没有一个固定的流程来走查所有的交互或者体验问题,所以设计一个走查清单,包括:问候语与结束语、自然会话、对话修复/容错等内容,用于发布产品之前检验问题。

 

9 语音办公助手的设计走查清单

 

语音产品的上线测试,也与传统的GUI产品有所区别,靠一个或者几个测试人员来压测,已无法完全满足无边界的语音产品的测试,于是语音办公助手采用了ET测试和用户测试相结合的形式。我们征询了一些开发团队以外的用户,让他们体验语音办公助手的各项功能,观察并记录他们的体验过程,重点记录他们的问话内容以修正和完善会话内容,最后会整理测试用户体验中遇到的问题以及他们体验中的兴奋点。例如,用户哪个对话路径完成起来有困难,或是用户在语音交互时产生的感受。每一次的测试后都需要对结果进行分类整理,发现在不同场景下、不同操作节点中存在的各种问题,随后都需要迭代新的版本进行快速修复和优化。一般而言,经过2-3轮的测试和迭代优化后,就可以进行开发实现了。

 

 

五 结语

 

语音交互产品向着更加自然的交互形式不断迈进,各种不同的使用场景也在不断被挖掘。但是,VUI设计流程还处于探索阶段,设计方法和原则需要不同的设计实践去验证和优化,而且,不同的团队协作、不同的产品形态、不同的技术实现能力,都需要对应的设计流程去配合支持,高效合理输地出VUI交互设计。

 

 

参考文献:

 

[1] Y Myers C, Furqan A, Nebolsky J, et al. Patterns for How Users Overcome Obstacles in Voice User Interfaces[C]// CHI Conference. 2018:1-7.

[2] Jofré N, Rodríguez G, Alvarado Y, et al. Natural User Interfaces: A Physical Activity Trainer[M]// Computer Science – CACIC 2017. 2018.

[3] Myers C, Furqan A, Nebolsky J, et al. Patterns for How Users Overcome Obstacles in Voice User Interfaces[C]// CHI Conference. 2018:1-7.

[4] Cathy Pearl.语音用户界面设计:对话式体验设计原则[M]. 电子工业出版社, 2018.

[5] 语音识别技术在智能家居控制系统中的应用研究[J]. 陈涛,高必梵,艾菊梅.电子质量. 2015(03).

[6] 韩勇, 须德, 戴国忠. 语音用户界面研究进展[J]. 计算机科学, 2004, 31(6):1-4.

[7] 雷葆华. 语音用户界面平台的设计与评估[D]. 哈尔滨工程大学, 2002

 

 

UXPA中国会员登录

记住我

第三方登录

×

微信登录

×
请使用微信扫描二维码登录 “UXPA中国官网”

下雨的春天

已使用微信登录(更换账号)

×

会员密码找回

×