2019年全球语音交互市场规模达到13亿美元,预计2025年全球语音交互市场规模将69亿美元,目前以广泛应用到智能家居、车载语音、智能客服等行业和场景。笔者从事语音交互产品一年有余,针对语音交互的概念定义、优劣势、适用场景和产百思特网品、未来发展等进行梳理所以。
1. 什么是语音交互?
语音交互(VUI)指的是人类与设备通过自然语音进行信息的传递。一次完整的语音交互需要经历ASR→NLP→Skill→TTS的流程:
(1)ASR
用于将声学语音进行分析,并得到对应的文字或拼音信息。语音识别系统一般分训练和解码两阶段:
- 训练即通过大量标注的语音数据训练数学模型,通过大量标注的文本数据训练语言模型;
- 解码,即通过声学和语言模型将语音数据识别成文字。
声学模型可以理解为是对发生的建模,它能够把语音输入转换成声学表示的输入,更准确的说是给出语音属于某个声学符号的概率。语言模型的作用可以简单理解为消解多音字问题,在声学模型给出发音序列之后,从候选的文字序列中找出概率最大的字符串序列。
(2)NLP
用于将用户的指令转换为结构化的、机器可以理解的语言。NLP的工作逻辑是:将用户的指令进行Domain(领域)→Intent(意图)→Slot(词槽)三级拆分。
以“帮我设置一个明天早上8点的闹钟”为例:该指令命中的领域是“闹钟”,意图是“新建闹钟”,词槽是“明天8点”。这样,就将用户的意图拆分成机器可以处理的语言。
(3)Skill
也即AI时代的APP。Skill的作用就是:处理NLP界定的用户意图,做出符合用户预期的反馈。
(4)TTS
即语音合成,从文本转换成语音,让机器说话。TTS业内普遍使用两种做法:一种是拼接法,一种是参数法。
- 拼接法即从事先录制的大量语音中,选择所需的基本发音单位拼接而成。优点是语音的自然度很好,缺点是成本太高,费用成本要上百万。参
- 数法指使用统计模型来产生语音参数并转化成波形。优点是成本低,一般价格在20万~60万不等,缺点是发音的自然度没有拼接法好。但是随着模型的不断百思特网优化,现在参数法的效果已经非常好了,因此业内使用参数法的越来越多。
2. 语音交互有哪些优劣势?
PART 1: 语音交互的优势
优势1:信息传递效率高
百度语音开放平台的研究结果显示,相比于传统的键盘输入,语音输入方式在速度及准确率方面更具优势。利用语音输入英语和普通话的速度分别是传统输入方式的3.24倍和3.21倍,信息传递效率进一步可拆分为4类:
- 检索高效:针对复杂的输入词,尤其是在输入方式不便的场景下,语音交互更高效。例如电视场景下进行电影搜索。
- 跨空间便捷:远场语音交互可以跨3~5米进行交流,针对需要跨空间的操作,语音交互更高效,例如:智能家居控制。
- 跨场景便捷:语音交互的潜在好处时可以根据说话内容自动判断意图场景,在需要频繁跨场景交互的场景下语音交互更高效。
- 支持组合指令:语音交互可以一次性下达多条指令,然后分别执行,在需要支持多意图同时传递的场景下语音交互更高效。假设你今晚想要看一部电影,你可以选择说:“播放刘德华的电影电影要四星以上并且是免费观看的。”
优势2:解放双手和双眼
通过语言交互可以将手和眼睛空起来处理其他事情,在需要多感官协同的场景下效率更高。例如:车载场景通过语音点播音乐,医疗场景医生在沟通病情的同时记录病历,工业场景在双手占用的同时下达指令。
优势3:使用门槛低
- 非文字使用者友好:人类是先有语音再有文字,每个人都会说话但有一部分人不会写字,针对老人、小孩、失明的人群,无法使用文字交互,语音交互会为其带来极大的便利。
- 学习成本低:语音交互更自然,在非复杂场景下,语音交互比界面交互更自然,上手成本更低。
优势4:传递声学信息
- 声纹识人:通过声纹可以进行身份判断,并且可以在下达指令的同时进行身份判断,百思特网效率更高。同时声音还可以判断性别、年龄层、情绪等信息。
- 声音传递情感:声音交互可以传递情感,因此在有情感诉求的场景下,声音是一个很好的选择。
PART 2:语音交互的劣势
劣势1:信息接收效率低
语音输出是线性的,当别人说话时,你可能得等全部说完后才能理解,无法像文字一样可以跳过阅读;语音交互也会增加用户的记忆负担,尤其是面临多项选择并且选项内容较长时。
因此它无法同时输出很多内容,在接受信息和多选择交互时,视觉具有更大的优势,声音的效率不高。所以来讲,语音交互针对单向指令是更有效的,而双向交互不是很有效。
劣势2:嘈杂环境下语音识别精度降低
语音识别需要清晰的识别出人声,包括将人声和环境声进行分离,将人声和人声进行分离。嘈杂环境使得人声的提取变得非常困难,尤其是针对远场语音交互,噪音的问题更加突出。
目前业内普遍使用麦克风阵列硬件和相关算法来优化该问题,但是无法完全解决,例如远场安静环境下语音识别准确率能达到95%,但是在嘈杂环境下仅能达到80%出头。但是随着技术的进度,嘈杂环境下的远场语音识别准确度也肯定会逐步完提升。
劣势3:公开环境下语音交互具有心理负担
语音交互的心理障碍是用户不能预设和预先判断。在同一情况下,不同的人可能会产生完全不同的行为和期望。这给设计者带来了很大的麻烦,也给用户带来了不确定性。从心理体验来看,没有多少人愿意对着机器说话,因为有可能会得到毫无感情甚至是错误的反应
3. 语音交互适合什么场景和设备?
我们判断什么场景和设备适合增加语音交互,根据语音交互的优劣势分析,得出以下加分项和减分项,为了简单起见,每个得分享赋予相同的权重,然后计算综合得分,将适用程度划分为高、中、低3档,分别记2、1、0分。
原则1:每个设备类型仅考虑起本身的功能,不考虑因为入口性质附加的额外功能,例如智能音箱,现在除了音箱属性,被赋予了天气、智能家居等其他属性。未来形态下家庭语音入口会分布式的,智能音箱被赋予的生活助手的角色也会被剥离。
原则2:设备的功能考量时会考虑现在还不具备但是以后会延展的相关功能,例如冰箱,支持查询冰箱内的物品情况。
- 需要复杂的信息输入:输入指令不能被穷举,则得分最高,如果仅简单的输入指令,则得分低;
- 使用对象双手或双眼被占用;
- 使用对象为非文字使用者:如果使用人群里老人、小孩和失明人群较多,则得分高,反之得分低;
- 需要跨短距离空间的操作:如果有实体按键,则得分高,如果可远程遥控则得分次之,而且皆无,则不得分;
- 原信息输入的工具比较受限:输入方式的便利程度触屏