关于智能语音交互的5点思考

wz*** · 发表于 2017-11-7 13:28

　　本文是我在学习智能语音过程中的思考，希望从智能语音的人机交互层面给大家带来一些启发。

　　

　　小时候很喜欢一部剧叫《恐龙战队》，里面有个角色叫“阿尔法”，是个每天忙来忙去的机器人，能传唤队员并和他们交流，令我很好奇。

　　今天，我们对于能对话的机器已经不那么新奇了，这得益于智能语音技术的发展和一些语音产品的出现。一度调戏Siri成为全民话题，这肯定不是Apple公司初衷。这暴露了它的不完善，也让大众离语音产品更近了。本文是我在学习智能语音过程中的思考，希望从智能语音的人机交互层面给大家带来一些启发。

　　语言是人类文明的重要成果，也是人类最重要的工具之一，它为保存和传递人类文明起到了不可或缺的作用。概括来说它的主要作用就4个字：传递信息。

　　“而我们所说的智能语音，学术界叫“自然语言处理”，是计算机科学领域与人工智能领域的一个研究方向，主要研究能实现人与计算机之间用自然语言进行有效传递信息的理论和方法。—引自百度 ”

　　“交互”一词全名是“人机交互”，是一门研究系统与用户之间交流、互动关系的学问。

　　智能语音交互严谨点说应该是自然语言交互(natura language interaction)，为了方便理解我依然采用“智能语音交互”这个词。

　　计算机技术及人工智能领域发展迅速，对“自然语言处理”的研究也异常火热。

　　siri、微软小冰、google now、Echo、科大讯飞、京东叮咚、出门问问等智能语音类产品开始出现，虽然存在很大的不完善，但回望历史我们能发现智能语音技术一直是在进步的。

　　在了解智能语音的过程中，我产生了一些问题，围绕这些问题我对智能语音交互进行了一些思考，希望能给你带来一些启发。

　　1、智能语音能成为人类主流的人机交互方式吗?

　　这个问题在知乎引起了很大的争论，而我倾向于智能语音交互会成为人类主流的人机交互方式之一。

　　人类与世界万物的交互过程大概是这样的：通过眼睛去观察人、事、物、环境等，再辅以耳朵听、鼻子闻、舌头尝、嘴巴交流、肢体触碰，而后大脑产生记忆和思考并做出动作、表情、语言和生理反馈，这个过程是循环和组合的。

　　不同的环境和习惯会有不同，但基本是在这个范围。这个过程中，前半部分主要是接收信息，后半部分主要负责交流互动，而语言和动作是最主要的交流互动方式。

　　人机交互角度看，用手操控是这个世界绝对的主流

　　我们每天使用的手机、电脑、相机、汽车，包括现在很火的AR、VR设备，基本上都要靠手去操控。(用手操控属于动作这个范畴)这跟人类的进化方式有很大关系，我们的祖先从学会制作工具开始，手就成为了人类接触万物的最主要工具。

　　尤其是机械的出现，只有人类灵巧的双手才能精准的操控完成任务。

　　可是人的手有几个缺陷：不够长，不够多，需要配合眼睛，这给我们的生活带来了很多不便。

　　

　　举个例子：

　　当我们在开车时，眼睛和手被占用，再去操作手机、中控触屏等设备会非常不便，危险系数也会大大增加。

　　原本语言是人与人之间交流的工具，很难像双手一样直接与物体产生反应。但是随着公认的第四次工业革命的到来，人工智能让我们有了更多可能，当机器能听懂我们的意思并很好的执行时，很多场景的人机交互方式将会被改变，更多适合的场景将会被挖掘出来，就像当年智能手机进入我们的生活。10年前，我们是无法想象通过手机做现在的大多数事情的。

　　所以我的浅见是：

　　智能语音技术会成为人类主流的人机交互方式之一。

　　成为之一，是因为除了语音外，原本的手的操作、体感操作、面部表情识别、注意力识别、甚至是情绪的波动，都可能在不同场景成为我们与机器的交互方式，未来这很可能是综合的交互体验。

　　2、智能语音技术发展到什么阶段了?

　　智能语音分近场语音和远场语音。

　　“近场的定义是小于1个波长的范围内(或者波长量级)的电磁场。而远场是电磁波传播到远处之后的场(分布)。——引自百度”

　　近场语音主要是基于手机等设备，基本上是一些辅助的使用需求，Siri和微软小冰就是近场语音产品。远场语音也越来越受重视，亚马逊的Echo就是远场语音，很受欢迎，至少用户能在5米外的距离语音指示它播放音乐。

　　自然语言理解方面的研究已经60多年了，虽然还不完善，但令人欣喜的是类似Siri、Echo这样的产品不断涌现，而不再是虚无缥缈的概念。

　　简单了解下自然语音处理的技术过程：

　　当我们与机器进行语音交互时，机器需要通过声学处理我们的声音和周围环境，减少干扰和噪音。再通过语音识别技术将听到的声音翻译成文字，语义理解技术则会分析这些文字的意义，最后机器去执行用户的指令或者通过语音合成技术把要表达的内容合成语音。

　　

　　在此过程，声学处理、语音识别、语义理解等属于自然语言理解，语音合成等是自然语言生成，这些都是非常核心的技术，还要配合人工智能、机器深度学习等等。

　　但是现阶段依然困难重重。

　　真实环境下，受噪音等影响机器仍然听不准自然语言。机器将听到的语音翻译成文字时，重音、口音模糊、语法模糊等又很影响成功率。人类语言太复杂，受到单词边界模糊、多义词、句法模糊、上下文理解等影响，语义理解又是一大障碍。

　　再举个例子：

　　如果一门课程上一年没开设，对于“这门课程去年有多少同学没通过”这样的问题，机器是回答“都没通过”还是“去年没开这门课”?同时机器还需要提前存储“去年没开这门课”的信息。

　　想想我们从小时候啥也不懂到现在懂得的知识和信息，这是难以想象的数据量!所以现阶段来看，在某垂直领域开发智能语音产品是相对现实的选择。

　　3、智能语音交互与界面交互的异同点是什么?

　　研究智能语音与机器的交互，不得不说界面交互，这是使用者和设计者都非常熟悉的人机交互方式。从界面交互出发，其实有很多可思考的或借鉴的点。

　　界面交互是线性的，而语音交互是非线性的

　　界面交互是一种线性的交互方式，本质上是不同的页面通过不同的层级关系串联起来的。所以，我们在使用的时候会有一层层返回，tab导航切换，回到app首页和home键回到手机桌面的概念。

　　语音交互不适合这样做，我们人类在语言交流时，是一种非线性发散式的，我们会在聊某个话题时突然切换到另外一个不相关的话题上，这之间没有层级关系，更谈不上返回关系。

　　界面交互更多过程，语音交互直接指向结果

　　界面交互在设计的时候，是将很多“小任务”(按钮点击、模块选择、页面跳转等等)提供给用户，用户通过不同的组合选择，最终达成自己的目标。

　　但是在语音交互时，更多是直接表达，你会跟服务员说：请给我一杯咖啡。而不会说：请用杯子从咖啡壶里倒一杯咖啡给我。

　　界面交互可以没有目标，语音交互需要准确的目标

　　我们在使用电脑和手机上网时，有时候是漫无目的，但在语音交互产品上如果漫无目的的进行下去，会让人很烦躁，因为你得不停地说下去。

　　语音交互的私密性更强，没有界面交互覆盖的使用场景多

　　当我们在一个人多的场合可以毫无顾忌的使用手机和ipad，但若跟机器进行语音对话，就会令人很尴尬。再例如，在ATM机上取款时你会使用语音吗??

　　

　　所以在一些使用语音交互效率高的场景，如何避免这样尴尬的情绪很重要。而另一些更私密的场景语音交互可能是个灾难。

　　4、智能语音交互适合哪些使用场景?

　　任何一款产品不管是什么样的交互方式，没有使用场景，满足不了用户需求，一定是无法成功的。智能语音类产品也不例外，并且从现阶段的技术上来看，垂直一些的使用场景更适合用智能语音交互。

　　汽车的车载智能语音系统，已经有很多商业产品了。是不是可以在挖掘出其他出行场景呢?比如骑车时?

　　儿童娱乐和教育也是适合语音交互切入的行业，也有很多公司在做。

　　智能语音类产品还可以应用于客服行业，可以极大的程度降低人员成本，也可以解决语音客服体验差效率低的问题。

　　

　　人工客服和非智能语音客服场景的痛点

　　如果应用智能语音系统呢?理想的情况跟人工客服没有区别，但是全部由机器完成，想想看节省了多少人力成本。甚至线下的客服工作也可以替代。

　　4似智能语音助理这样的产品，帮用户处理一些短路径目的明确的任务需求。

　　还有办公领域、智能家居等等……

　　5、如何设计使用体验好的智能语音产品?

　　不管是界面产品还是语音产品，最终目的都是解决人们的问题。界面产品设计的部分标准和经验依然适用。

　　比如设计流程上，同样需要理解业务诉求、用户诉求，要进行用户调研、分析用户特征和观察用户行为，要挖掘使用场景中的问题和痛点，要梳理任务流程、设计信息架构和方案设计，并且要去验证和迭代。

　　而语音交互过程中还需要注意以下问题：

　　流程简单，路径明确，最大限度减少对话轮数。

　　语音交互应该避免不停的对话，太多轮对话用户难以记住，并且会很烦躁。

　　信息传达简洁明了，避免大量内容。

　　用户的短期记忆量有限，信息太多用户难以记住。

　　给予用户适当的引导，避免或及时纠正用户发散式思维导致的错误。

　　用户的语言表达是自由度非常高的，这会增加机器识别的难度，适当的引导让用户回到正确的道路。

　　系统状态反馈，及时有效。

　　语音交互中的系统状态反馈，要让用户及时了解当前状态，上下文关系，用户所处流程的位置。

　　任何时刻都是“首页”。

　　语音交互对用户来说是快捷方式，有需求会直接说，而不会像界面产品先要回到首页再去找相应应用。

　　加载过程要快。

　　在界面交互中页面加载3秒以内，配合状态反馈，用户是可以接受的。而语音交互用户会更不耐心等待，所以加载过程要快，就像人与人之间对话一样自然，才会令用户满意。

　　固定的、舒适的声音风格，令用户愉悦。

　　固定的音乐、铃声，给用户形成印象，让人一听见就知道是什么产品。例如微信、iphone铃声、新闻联播片头曲。动听、令人愉悦的声音、音乐、铃声很重要，是产品气质的表现。

　　与机器的语音交流如何像人类一样自然?

　　这是最后的疑问，我还没有答案。机器的语音交流，不像人类一样自然永远是最大问题，因为只有人与人之间交流才是最自然和舒适的。如何让机器学习和模仿人类，使它慢慢的向自然人“进化”?

　　以上仅是分析和思考，并未经过实践验证，只希望给大家带来启发。

[运营] 关于智能语音交互的5点思考

温馨提示：

相关帖子

实名认证用户

VIP贵宾