声色无限 — 基于语音趋势的产品设计 - UXPA中国2016行业文集

2017-04-28 | 文集


声色无限 — 基于语音趋势的产品设计

代嘉鹏  姬晓红 王向荣

中兴通讯

 

摘要:

2016年被称之为VR/AR和人工智能的元年,经过多年的积累和沉淀这两个领域终于熬出了头,获得了全世界全的关注。无论是CES2016上出尽风头的VR/AR和机器人,还是战胜人类最强围棋手的AlphaGo,又或者高考作文的命题“请孩子们谈谈他们对‘虚拟和现实’的理解”,都在预示着智能技术元年的到来。语音交互作为智能交互的最佳入口也迎来了它的春天,它将是下一阶段与机器交流最方便、最高效、最自然的交互方式。本文结合语音产品创新功能设计研究过程,来展示如何设计当下的语音产品。

关键词:人机交互;情感化设计;识别率;用户场景;

 

1.  语音技术趋势展望

1.1 美国的人机交互发展历程(1930s-2016)

从计算机诞生以来人机交互随着技术的发展,从纸带、键盘、鼠标,到触摸屏,再到语音,经历了翻天地覆的改变。其中的变化趋势从人适应机器,慢慢转变到机器适应人,技术使得机器已经逐渐的能够以人舒适的方式进行交互了。

 

图表 1美国的人机交互发展历程美国的人机交互发展历程1

 

1.2 语音是最高效的交互形式

大多数语音产品的设计目前还是技术驱动型的,通常是因为实现了某种技术,再来考虑怎么让用户来使用。实际上是可以根据技术的发展趋势提前做好产品功能布局,比如优先实现技术依赖度较低的却有高频需求或创新需求的功能。我们先对语音交互进行一些简要的介绍。

 

对消费者的益处    

语音交互与GUI相比有速度快、操作简单、个性化等优势。

 

效率优势-速度快:

人每分钟平均可以说150个字,手打字只有40个。尤其在移动设备和物联网设备上该优势尤为明显,如智能手表、智能电视等设备。

 

操作优势-简单:

语音输入无需用用手,只需要简单的口令即可完成较为复杂的GUI交互操作,相对于GUI指令输入的效率也会快很多。

 

个性化优势:

语音交互会更多的利用上下文的指令驱动,并且无需键盘干预。尤其是具备学习能力的设备通过对用户过往行为习惯的采集,能够根据之前的问题、交互、位置、以及其他语义理解问题的大背景,并给出最合适的服务。

 

语音交互特点

语音交互任意入口 VS GUI固定入口

语音交互处理随机性指令有先天优势,无需遵循GUI的线性目录结构逐级操作。对于语音交互一条指令即可完成多步复杂的操作,而且入口是任意的,并且与GUI不仅不冲突的还可以相辅相成。

成本低+尺寸小

语音只需要麦克风、扬声器、处理器、联网功能,特别适用于智能穿戴和物联网产品。例如智能手表使用语音交互大大提升了交互效率,为其应用场景增加了更多的可能。

 

图表 2智能手表

 

1.3 人工智能提升产品体验

人工智能的发展使得自然语意识别以及处理技术体验提升。用户可以使用自然的语言与设备对话,而不必使用机器预设的指令完成交互。简而言之,“设备可以讲人话了”。

 

关键技术瓶颈

语音交互技术一年年的持续进步,现在距离产品爆发期还差临门一脚。主要瓶颈依然是识别率和交互延迟上。

 

识别率

识别率一直都是语音交互最核心的技术指标,目前最领先的语音技术依然只有95%的识别率。

百度首席科学家吴恩达表示:“假如语音识别准确率从95%上升到99%,所有人都会从现在的极少使用转变为一直使用,大多数人低估了95%与99%准确率之间的区别——99%将会改变游戏......”

从数据上看95%的识别率已经相当高了,十句话只有半句是识别错的,听起来已经很厉害了。其实这个指标可能是实验室的最佳结果,对于环境、设备、输入源的要求都比较高。而实际情况受到环境影响、设备稳定性影响、输入源的差异,识别率会有所下降的,难以达到95%。另外,实际场景中完成一个任务是需要多次交互的,这样错误率又会指数级的叠加。假设日常环境平均识别率达到90%,平均需要3次交互完成一个任务。      那么 累计识别率为 90%^3=72.9% 。这种识别率的感受就是“总在关键时刻掉链子”。如果识别率能够稳定大达到99%,那么 累计识别率将高达99%^3=97%,改变游戏将是必然的。

 

处理延迟

交互的处理延迟在任何时代也都是一个关键指标,这不仅仅体现交互效率上,更对用户心理上产生重大影响。尤其是在当下这样一个人人都很匆忙的时代,没人愿意会一个回复等待10秒。相比之下GUI的响应时间大都是非常段的,超过1s的响应就会觉得有些慢了。如果遇到疯狂动物城中树懒这样的家伙一样每句话都要半天才做出反应是会把人逼疯的。

 

图表 3“闪电”疯狂动物中的树懒

 

小结:95%的识别率和长延迟依然是个门槛,如何通过产品设计,提升识别率,降低用户的交互延迟?是当前需要重点关注的问题。

 

小贴士:

降低不确定性的预期,提升可感知的预期;

降低交互的开放性,利用复合型交互,提升交互效率;

 

把握趋势洞察机会

音词汇识别持续发展

截止2016年谷歌基于英文的词汇识别技术在安静的环境中已经接近人类的基本水平。依照过去四十多年的发展趋势,在未来的5年内识别率将接近100%。

 

 

图表 4Johan Schalkwyk, Voice Technology and Research Lead, Google

 

语音识别率逐年稳定递增

百度、谷歌、SoundHoud三家的语音识别率也在逐年增长,目前均达到了约94%以上,5年内突破99%的概率也比较大。

 

图表 5Source: Baidu, Google, VentureBeat, SoundHound

 

小结:语音产品在未来的5年内是非常关键的成长期,多家技术公司的研发进展齐头并进,在市场争夺上将会非常激烈。未来几年的用户占有率将会决定未来的市场格局。

小贴士:

1、提前布局产品

2、提前建立合作关系

3、提前培养种子用户群

 

1.4 用户行为分析

技术驱动用户使用语音助手

随着技术的不断进步更多的用户出于对科技的体验、环境影响以及自身需求开始使用语音助手。用户对于新功能的排斥和尴尬也随着技术和环境的改变渐渐消退。当下虽然仍有很多用户依然不习惯使用语音功能,请不必在意他们。因为现在语音的目标用户应该是那些爱尝鲜的早期种子用户,他们才是在未来能够传播并推动产品进步的用户。

 

图表 6用户使用语音功能的原因¹

 

用户常问的问题

在SoundHound的用户数据中发现平均每个活跃用户每天在四大类别100多个领域中进行6-8次查询。用户最关心的是速度、准确率、跟上语速的能力、理解复杂查询的能力。可以看出目前活跃用户对于语音搜索的内容要求还不算复杂,更关注于产品的交互体验。

 

图表 7Source: SoundHound¹

 

用户使用语音的原因

用户的使用情景依然是手不方便、更快要结果、打字不便;场合有家里和车里,忙的时候。语音助手依然是在较为私密的场合作为应急的方式来使用,因此用户的粘性还相对较低。

 

图表 8用户使用语音的目的和场所¹

 

亚马逊Alexa语音服务的布局

在home、car、on go的场景中亚马逊的Alexa语音服务都有布局相关的产品,已经初步形成了生态圈,完整覆盖了语音常用的基础场景,大大丰富了用户接触点从而提升了使用频次和粘性。

图表 9¹

 

手机增长遇到拐点,语音设备将逐步兴起

2016年的苹果手机的销量可能终结了常年增长的趋势,也许智能手机市场已经饱和拐点已然来临。相比之下Amazon Echo的语音产品呈现出逐步增长的趋势,此消彼长的现状也意味着语音元年的到来。

 

图表 10IPhone和Echo销量趋势图¹

 

小结:手机依然是最合适的入口,但物联网产品的优势明显,手机需要与外设构建生态圈。

 

小贴士:

1、家庭和汽车将成为最主要的使用场所

2、用户的使用需求趋向于简单快捷的功能,未来功能会更加丰富

3、私人助理\助手的角色将会被逐步认同

 

1.5 语音产品的机遇

2016年是语音的元年,是技术巨头的狂欢夜,他们掌控者所有的核心技术,下游厂商如何能够分到一杯羹呢?目前看来通过利用技术巨头打好的基础,我们可以站在巨人的肩膀上谋取个性化服务的利益。

目前国内市场的语音产品主要是语音助手和驾驶助手类的辅助产品,功能上同质化严重,个性化不足。用户使用体验上的识别率、TTS体验、功能粘性都难以打动用户。在创新性上似乎都已经到了无计可施的地步,那么如何能够打破现状,为用户带来新的体验呢?

产品创新的需求成为我们语音团队日夜思考的重要问题。最终我们决心在现有的技术基础上,扩展语音产品的定义范围,做个性化泛语音类的产品,同时着眼于用户对于“语言”的情感做深度挖掘。

我们带着新的产品需求开展了大胆的调研尝试,需求的目标是规避识别率陷阱、丰富TTS(TextToSpeech从文本到语言,是把文字转换成语音输出的技术)的情感、挖掘高频用户场景。

 

2. 调研设计

接下来根据我们确定的提升目标,设计整体的调研方案。我们组建了专项研究小组,成员有语音技术总工、产品营销策划、用户体验设计师。通过初步的集中讨论我们对于提升目标进行了进一步的解析。

 

识别率陷阱

为什么95%的语音辨识率用户依然反馈难用呢?我们发现当前的语音助手虽然功能强大,但在没有明确指引的情况下用户不知道问什么好或随意说几句,这就导致机器无法识别命令。

因此需要结合用户场景,适当的引导用户搜索确定性的问题,我们需要在调研中验证用户体验最好的问题,如查美食、创建日程、查地址等等。

 

推论1:

深度分析使用场景,引导用户使用特定指令可以提升用户感知到的识别率。

 

呆板的语音助手

同样是对着手机说话,为什么很多人觉得对着“语音助手”说话很傻,但是打电话、聊微信语音却旁若无人?

对于用户来说:

打电话 = 与另一端的人沟通

用语音助手 = 对着机器说话

结合日本机器人专家森昌弘提出的恐怖谷假设来理解,人们对于没有人物形象投射的语音助手友好度还是很低的还不如小动物或卡通人物。

 

图表 11恐怖谷理论

 

 

推论2:

人格化语音助手并设计对应的角色形象,可以提升产品友好度,降低用户戒备心。

 

缺乏新意的产品

由于语音技术的发展速度远远低于应用软件的发展速度,所以当下与语音相关的产品已经相当广泛了,并且同质化严重,如果没有另辟蹊径的开脑洞的新体验,很难让用户提起兴趣。因此在原有语音产品的基础上发展一下语音为载体的产品,如音乐相关、阅读相关、电台相关等等。

 

推论3:

摆脱传统语音产品的发展轨迹,设计泛语音类的产品将可能带来更多机会。

 

3. 调研分析

综合以上推论我们组织了2场座谈会,3次问卷调研,合计样本量90人次。针对用户场景、产品人格化包装、音场景挖掘等几个内容进行了较为全面研究分析。下面简单介绍下调研设计和部分结论。

 

人物画像

表1 调研基本信息

 

人物角色分析

我们设定了4位不同个性的女性角色,用于测定用户对于语音助手形象的偏好:

天诺:自信、干脆、爽快

小艾:专业性、稳重

萱萱:温柔、甜而不腻

小星:顽皮、活泼、有趣

 

图表 12卡通形象

 

调研中发现用户对于形象颇为感兴趣,并且比较喜欢顽皮、活泼、有趣的小星。

 

图表 13用户形象调研结果

 

 

TTS音色分析

调研中发现用户对于TTS(从文本到语言(TextToSpeech))较为敏感,不同音色的也会带来截然不同的感受。令人舒适的音频对于语音产品使用的接受度会有很大的改善。

 

图表 14消费者对于音色的反馈

 

那么怎样的音色最受欢迎呢?我们对网上的知名频道主播进行了筛选,把不同风格的音色进行分组,并通过试听投票的方法进行调研。最终发现声音年轻、清爽、甘甜的音色最受欢迎。

 

图表 15声优音色投票结果

 

特色场景分析

我们在座谈会中通过让用户回忆使用过的语音产品,引发用户记忆和联想,找到了一些让用户有认同感的场景。这些场景非常宝贵,可以利用它们唤醒用户底层的记忆,引发他们对于产品的熟悉感和好感,尤其是新功能的体验优于用户的记忆时,会带来一定的惊喜感。

例如:

语音导航,开车时用手不安全,走路时不想边走边低着头打字;

冬天天冷,戴手套不方便拨号,语音拨号;

睡觉前手机锁屏状态懒得打开手机,打开天气APP,直接激活语音说查询明天的天气;

看完菜谱开始做菜时,具体加调料的量又忘了,手上有脏了,不方便用手机,想用语音查一下菜谱;

 

语音APP体验解析

我们展示了现有的主流语音APP用来探测消费者的态度,收获了很多有价值的讯息。经过分析发现目前的痛点主要集中在交互不够平滑,功能还较为单一,他们对于创新的语音功能后还是充满期待的。

表2用户反馈解析

 

泛语音化功能创新

调研中我们也通过展示了一些语音类产品来探测用户偏好。对于新鲜的功能用户不仅表示非常感兴趣,还非常愿意尝试。这也证明了新鲜的产品概念更能讨好用户,也将来带更多机会。

范例:

调研中为用户展示了一款语音转为音乐的产品,只需要用户说一段话,经过混音即可生成一段富有节奏感的音乐,并且可以分享给朋友。这个功能增强了用户的参与感,又融入了社交元素加强了传播力。

 

图表 16音乐编辑器

 

更有趣的是用户认为这样的功能是黑科技、创新功能,反而并不在意识别率低、机械感不适等问题,当用户的注意力被新概念所转移后他们对于体验的评价标准也随时改变了。在技术过度的时期,识别率的进步的量边还无法让用户明确的感知到新鲜感时,还是需要换一种角度来思考问题,设计产品。

 

调研小节:

文中的调研仅仅是我们对于产品设计的初步探测,相关的发现证实了用户对于语音产品的态度还是较为积极的,尤其是对于泛语音产品的兴趣非常浓厚。语音产的设计不仅要在交互上精益求精,更要结合用户的情感,因为语言是人类最重要的表达情感的载体。语言除了字面信息之外,还代表了一个人的人格和性格,设计者一定要考虑为产品塑造一个广受欢迎的形象。电影中的许多形象是可以参考和借鉴的,如超能陆战队中的治愈系大白。

 

4. 结束语:

虽然现在的智能语音还像是一个3岁小孩,但很快它的语言能力将会远超人类,它将更加了解我们心灵中那细腻的思想,并协助我们表达心意,世界一定会变得很不一样。

最后请让我引用小说《基地》中的一段文字来结束本文。

“语言,是人类用来表达内心思想与感情的方法。它并非与生俱来,必须经过学习方能使用,也不能算是一种完美的沟通方式。人类所建立的语言沟通模式,只是利用各种声音的组合来表示精神的状态。然而这种方法却极为笨拙,而且表达能力明显不足,只能将心灵中细腻的思想,转换成发声器官所发出的迟钝声音。”

——艾萨克·阿西莫夫 《第二基地²

 

参考文献

1、KPCB .《互联网女皇2016年互联网趋势报告》2016

2、艾萨克·阿西莫夫 《第二基地》1953

 

 

0   喜欢

操作成功!
请登录您的邮箱获取新密码,请尽快修改您的新密码!