“设置一个7:15的闹钟”
“好的,正在呼叫Selma Martin”
“不,是设置一个7:15的闹钟!”
“抱歉,我帮不了你”
“唉!”(无奈手动设置闹钟)
我们的声音是多样复杂且随机变化的,即使是在人与人之间,语音命令处理起来将会更加困难,更别提电脑了。因为不同人的思维方式不同、交流文化存在差异以及对方言和语义理解的差别...所有的这些细微因素都影响着我们词语的解释和理解。
因此设计师和工程师要如何克服这个挑战?如何培养用户和AI之间的信任?面对这些问题,VUI将会发挥它的作用。
语音用户界面(即VUI)是人与设备之间交互的主要或辅助的可视、可听或可触摸的语音交互界面。简单的来说,VUI有很多形态,比如听到你的语音命令而闪烁的灯光或是汽车娱乐控制面板。重要的是,VUI不一定需要可视化的界面,它也能完全是听觉或触觉的(例如震动反馈)。
“语音用户界面(即VUI)是人与设备之间交互的主要或辅助的可视、可听或可触摸的语音交互界面。”
虽然VUI的范围很广,但是他们都遵从同一套可用性标准。我们将共同探索这些标准,作为用户我们可以每天解析VUI交互,作为设计师则专注于创造更好的用户体验。
发现——约束、依赖、用例
我们与世界交互的方式被技术、环境以及社会学准则高度限制着:例如我们处理信息的速度,将数据转化为行动的精确度,用于交流数据的语言以及行动的接收者(我们自身或者是别人)。
在我们深入研究交互设计之前,我们首先要做的是必须明确构成语音交互环境。
明确设备类型
设备类型影响着语音交互的工作模式和输入。
手机
特定用例:iPhones(苹果),Pixels(谷歌),Galaxies(三星)
连接功能:蜂窝网络、 wifi、配对的设备用户
环境语境对语音交互有明显影响
用户习惯于使用语音交互功能
支持视觉、听觉以及触觉反馈进行交互
交互方式在各种设备之间是标准化的
可穿戴设备
特定用例:如手表、健身手环、智能鞋
连接功能:蜂窝网络、 wifi、配对的设备用户
用户可能习惯使用语音互动功能,但这种交互在各种设备之间是并不标准化
尽管有的设备很被动,没有明确的用户介入,但可允许通过视觉、听觉和触觉反馈进行交互
往往依赖于连接设备进行交互和消耗数据流量
固定连接设备
特定用例:电脑、含屏幕的家用电器、音响系统设备、智能家居终端机、电视
连接功能:有线网络、 wifi、配对的设备用户
用户习惯在同一个位置使用和设置这些固定设备
相似设备之间都有某种同样标准化语音交互(就像Google Home/亚马逊Alexa定制同一标准化智能恒温器一样)
非固定设备(不含手机)
特定用例:笔记本电脑、平板电脑、发射器、车载娱乐交互系统
连接功能:无线网络、 有线网络(非常见)、wifi、配对的设备用户
主要输入方式通常不是语音
环境语境对语音交互有直接影响
通常在设备类型之间有未标准化的语音交互方法
如何创建用例表
语音交互的主要、次要和最后的用例是什么?该设备是否有一个主要用例(如健身跟踪器) ?或者它有一个折衷的案例(就像智能手机的功能一样) ?
创建一个用例表格非常重要,它可以帮助您识别用户与设备互动的原因。他们的主要互动模式是什么?次要互动模式又是什么?为找到更好的语音交互模式,哪些模式是是必要的?
参考下图用例表为例(Acme产品用例表研究)
也可以给每一个交互模式创建用例表格。当应用于语音交互时,该表格将帮助您了解用户目前如何使用或希望如何使用语音与产品进行交互ー包括他们将在何处使用语音助手:
互动模式等级次序
如果您要通知你的用户来研究这些用例(无论是用量还是原始量化) ,通过对交互的透视图模式进行排序来作为您的研究分析很重要。
如果有人告诉你: “要是假如我能跟电视机对话,我要让它换个频道,那就太炫了!”。
所以,你确实需要深入挖掘。这些用户真的会使用这样的功能?他们是否了解这些约束条件?他们真的会喜欢这些功能?
作为设计师,你必须比用户更了解他们自己。
你要对他们特定的交互方式产生质疑,了解为何用这种方式而不选择其他的。
例如,我们在验证用户是否愿意用语音去操控他们的电视时,在这种情况之下,我们完全可以模拟出许多可能存在的交互形式之一。
用户有机会接触各种交互工具:遥控器、配对智能手机、手柄游戏、连网的物联网设备…因此,语音只能算是多种交互形式中的一种,并不能作为默认的交互形式。
于是,问题就变成了,用户把语音作为首选交互形式的可能性有多大?如果不是首选,他们其次会选择什么?第三选择又是什么?这个问题将证明你对用户体验的假设是正确的。
列举技术制约
把我们的语音指令变成行动操作,是一件有难度的技术挑战。通过无数次的对接,调试,一个设定好的计算机引擎可以快速地识别我们的语音指令,并根据指令实现相应的操作。
不幸的是,我们并非生活在一个被千兆互联网无限覆盖的世界里。虽然语音引擎需要复杂处理和模型的预设,但我们仍希望语音能像传统的交互形式一样即视可触。
这里有一些事例,展示了那些必须使用语音交互的情况。
Ami 语音引擎
正如所看到的,我们还需要不断训练更多的词汇,口音,音调,来调试多种多样的语音模型。
自动语音识别技术原理
每套语音识别平台都有一套独特的技术制约,在构建用户的语音交互体验时,就必须接受这些制约。
分析下列几项:
连接质量——设备是否始终连接到Internet?
处理速度——用户是否需要进行实时语音处理?
处理精准度——准确度和速度之间的权衡是什么?
语音模型——我们目前的语音模型设置的如何?能够准确处理完整的句子还是简单的词汇?
备选方案——如果语音无法识别,那么技术上的备选方案是什么?用户能否选择使用另一种交互形式?
错误操作——错误操作导致的结果是否不可逆转?我们语音识别引擎是否能足够成熟,能够避免严重的错误?
环境测试——语音引擎是否在复杂的环境下进行过测试?例如,假设我正在创建一个车载娱乐系统,我将会预设出除智能恒温器外,更多可能会产生的背景干扰。
非线性
而且,我们也要考虑到用户可以以非线性方式和设备进行交互。比如,如果我想要在网上预定一张飞机票那么我必须一步步遵循网站的说明流程:选择目的地,选择日期,选择机票数量,查看可选项,等等……
但是,语音用户界面有更大的挑战。用户可能会说“我们想要定飞往旧金山的商务舱”。现在,语音用户界面为了保护现有的航班预定APIs,需要设法从用户那儿获取相关信息。合理的规程可能会被歪曲,所以这就是语音用户界面的责任所在:从用户那里获取相关信息(通过语音或视觉补充)。
语音输入交互
既然我们已经探索到我们的限制,我们所依赖的和用户案例,我们就可以开始深挖现实语音交互。首先,我们需要探索设备是如何知道何时需要倾听我们的声音。
作为对上下文一些补充,以下示意图说明了一个基础的语音交互流程:
就像下图表现的…
触发器
有四种类型的语音输入触发器:
语音触发器— 用户会说出一个词使设备开始处理语言(例如“Ok Google”)
触摸触发器— 按下按钮(物理或数据形式)或者切换一个控制器(比如:麦克风图标)
运动触发器— 在传感器前挥动你的手
设备自触发器— 一个事件或预设触发设备(可以及时得到确认的一次汽车事故或一个任务提醒)
作为设计师,你必须知道哪个触发器和你的用户案例有关,这些触发器从近似相关到非相关间的等级顺序。
线索提示
通常,当出发设备去听取时,会出现听觉,视觉或触觉提示。
在设计提示时应遵循以下可用性原则:
及时性 ——在接收到用户的触发信息之后,应该尽快给出提示响应,即使它会对当前操作造成一定程度中断(但请保证这种中断的友好程度,不要过于粗鲁)。
精简性 ——提示应该是瞬间响应的,特别是对于经常使用的设备。例如,响应声音为“哔哔”,肯定比完整的句子“我在,贾斯汀,现在你想让我做什么?”更有效。因为前导提示越长,用户的描述与设备的提示之间冲突的可能性就越大。这一原则也适用于视觉线索。屏幕应该立即呈现模拟收听的状态。
清晰性 ——用户应该收到提示,知道他们的指令正在被聆听。
连续性 ——提示应该在声音和视觉反馈上相统一。如果出现差异,会让用户感到非常困惑。
差异性 ——声音和视觉反馈应该区别于该设备的正常声音和普通界面,也不应该在任何其他场景中再使用。
补充提示 ——您还可以利用多样的交互来设计提示,例如两次哔哔声、一次灯光切换和一次屏幕对话……
初始提示 ——对于第一次使用的用户,或者当用户没有下一步行为,看起来像感到疑惑时,您可以显示更多提示或建议,以降低语音交互难度。
关于反馈的用户体验
对于语音界面用户体验成功与否,反馈显得尤为重要。反馈让用户得到即时且持续的确认,知道自己的话被设备接收和处理。此外,反馈还能让用户反复修正或肯定。
Cortana 科塔娜(微软出品的智能语音助手)
以下是一些有助于语音反馈更高效的交互原则:
实时、反应迅速的视觉效果——这种视觉反馈在本身就是强语音功能的设备(如手机)中最为常见。它能在音高、音色、强度和声音时长等多个声音维度上产生即时的认知反馈,所有这些都能在界面上实时地通过颜色和样式来响应。
音频回放——通过一个简单的回放,以确认语音识别无误
实时反馈——用户说话时,识别后的文本应该逐渐出现
输出文本——用户说完后,识别的文本应该完整展示。这一步应该早于将用户的语音指令转换为操作前。
非屏幕视觉响应——上述的响应不仅仅局限于数字屏幕。这些响应模式也可以表现为简单的led灯或光模式
结束提示
结束提示意味着设备已经结束倾听用户的指令,并即将执行用户的指令。很多"引导提示"的原则同样适用于结束提示(例如即时性,简短性,清晰性,一致性,差异性),不过除此之外,结束提示还有以下的几条原则:
充足的时间—— 确保用户可以有充足的时间发布指令。
适应时间——根据用户的使用场景,等待用户回应的时间,例如:当用户被问到“是”或“不是”的时候,结束提示应该在提问之后有一个合理的停顿。
合理的停顿—— 在上一个指令结束后需要有一段合理的时间来运行指令,这个时间很难去计算出一个具体的数值,需要根据具体的用户场景去看。
会话交互
像“打开我的闹钟”这样简单的指令不需要和机器进行很长的对话交流,但是一些比较复杂的指令需要。人和机器的沟通,不像传统的人与人之间的沟通一样简单直接,与机器的沟通往往需要更多的确认,重复和修改。
复杂的指令需要更丰富的交流以及多样的选择来确保它的准确性。很多时候用户并不知道自己要什么以及怎样让机器完成自己想做的事情,所以通过用户提供的上下文来推导用户的需求也是机器的责任。
肯定性—— 当机器理解了用户的指令之后,需要在确认指令的同时给出执行的信息。例如:当机器可以回答:“好的,我会关灯”或者“您确定需要我关灯吗?”时,就不要只说“好的”。
纠正性—— 当机器无法理解用户的需求时,需要提供给用户修改需求的选择,或者允许用户重新开始整个语音交流。
同理心—— 当机器无法完成用户的指令时,机器需要承认自己需求理解的匮乏性,然后提供用户修改的选择。同理心是机器与用户建立情感连接很重要的桥梁。
拟人化交互
为声音交互赋予人类特征可以有利于人与机器的建立关系。拟人化交互可以通过很多种途径实现:灯光的图案,振幅的形状,抽象的球形图案,计算机合成声音等。
拟人化是将人类的特征,情感,目的应用于非人类实体。
拟人化特征可以促进用户和机器建立更亲密的联系,也可以应用于不同平台的产品(例如:谷歌助手,亚马逊的Alexa,苹果的Siri)。
个性 ——虚拟的性格可以使人机交互的进入另一个维度,机器与用户产生共鸣的时候,可以减轻用户由于机器执行错误指令的负面情绪。
积极性——鼓励重复的交互和确定性语气。
自信和信任 ——鼓励机器与人有更多的交互和交流,因为这样用户会更相信可以得到想要的结果。
端到端动态用户体验
语音交互应该学会捕捉一些表现得流畅自如的动态变化。当我们同其他人进行面对面的交流时,我们通常会使用大量的面部表情、语调变化、肢体语言和动作。其中的挑战就是如何在数字化的环境中捕捉这样的流动性交互。
如果可以的话,整个语音交互体验应该感觉像是一个有意义的交互过程。当然,像“关灯”这样稍纵即逝的互动并不一定需要完整的关系。然而,任何一种更强大的互动,如在烹饪的时候使用数字助手,这需要一个长时间的交流过程。
有效的语音动态体验应该符合如下的几个准则:
短暂性 ——在不同的状态之间无缝切换。不能让用户感觉到等待,而是让他们感觉到数字助手时刻在为他们工作。
生动性 —— 使用生动的颜色来表达愉悦的感受和未来的感觉。增加优化的未来元素的互动(科技感)。这个互动可以重复出现。
响应性—— 响应用户的输入和手势。提供有关正在处理哪些任务的提示单词,并允许用户查看其语音/意图是否被正确解析。
Natural AI inside AGI automotive dashboard by Gleb Kuznetsov
结论 & 资源
语音界面是极其复杂的、多方面的,并且常常相互作用的。事实上,并没有一个全面的定义。需要重点记住的是,一个日益数字化的世界意味着我们实际花在设备上的时间可能比我们花在人类彼此之间时间还要多。语音界面最终会成为我们与世界互动的主要手段吗?让我们拭目以待。
与此同时,你是否希望设计一个世界级的语音界面?
作者:Justin Baker
翻译:田晓青、DongCong、罗几、cyruan、桃几、周慧敏、高蓝光
审校:DongCong
原文链接:
https://medium.muz.li/voice-user-interfaces-vui-the-ultimate-designers-guide-8756cb2578a1
感谢阅读,以上内容由花火译文小组翻译,转载请注明出处。
【TTF2019转型论坛趋势:无边界创新】
2019 年 11 月 6-8 日
TTF 2019
将在广州保利世贸博览馆5号馆举办
美啊全程独家直播
一起观看直播,与大家一齐讨论
▽
如果加群人数过多无法入群,
还可添加客服微信,备注TTF直播预约
我们会拉你进群~
▽
本文来自投稿,不代表本人立场,如若转载,请注明出处:http://www.souzhinan.com/kj/224607.html