
1. 什么是语音交互?
语音交互(VUI)指的是人类与设备通过自然语音进行信息的传递。一次完整的语音交互需要经历ASR→NLP→Skill→TTS的流程:

(1)ASR
用于将声学语音进行分析,并得到对应的文字或拼音信息。语音识别系统一般分训练和解码两阶段:
- 训练即通过大量标注的语音数据训练数学模型,通过大量标注的文本数据训练语言模型;
- 解码,即通过声学和语言模型将语音数据识别成文字。
声学模型可以理解为是对发生的建模,它能够把语音输入转换成声学表示的输入,更准确的说是给出语音属于某个声学符号的概率。语言模型的作用可以简单理解为消解多音字问题,在声学模型给出发音序列之后,从候选的文字序列中找出概率最大的字符串序列。
(2)NLP
用于将用户的指令转换为结构化的、机器可以理解的语言。NLP的工作逻辑是:将用户的指令进行Domain(领域)→Intent(意图)→Slot(词槽)三级拆分。
以“帮我设置一个明天早上8点的闹钟”为例:该指令命中的领域是“闹钟”,意图是“新建闹钟”,词槽是“明天8点”。这样,就将用户的意图拆分成机器可以处理的语言。
(3)Skill
也即AI时代的APP。Skill的作用就是:处理NLP界定的用户意图,做出符合用户预期的反馈。
(4)TTS
即语音合成,从文本转换成语音,让机器说话。TTS业内普遍使用两种做法:一种是拼接法,一种是参数法。
- 拼接法即从事先录制的大量语音中,选择所需的基本发音单位拼接而成。优点是语音的自然度很好,缺点是成本太高,费用成本要上百万。参
- 数法指使用统计模型来产生语音参数并转化成波形。优点是成本低,一般价格在20万~60万不等,缺点是发音的自然度没有拼接法好。但是随着模型的不断百思特网优化,现在参数法的效果已经非常好了,因此业内使用参数法的越来越多。
2. 语音交互有哪些优劣势?
PART 1: 语音交互的优势
优势1:信息传递效率高
百度语音开放平台的研究结果显示,相比于传统的键盘输入,语音输入方式在速度及准确率方面更具优势。利用语音输入英语和普通话的速度分别是传统输入方式的3.24倍和3.21倍,信息传递效率进一步可拆分为4类:
- 检索高效:针对复杂的输入词,尤其是在输入方式不便的场景下,语音交互更高效。例如电视场景下进行电影搜索。
- 跨空间便捷:远场语音交互可以跨3~5米进行交流,针对需要跨空间的操作,语音交互更高效,例如:智能家居控制。
- 跨场景便捷:语音交互的潜在好处时可以根据说话内容自动判断意图场景,在需要频繁跨场景交互的场景下语音交互更高效。
- 支持组合指令:语音交互可以一次性下达多条指令,然后分别执行,在需要支持多意图同时传递的场景下语音交互更高效。假设你今晚想要看一部电影,你可以选择说:“播放刘德华的电影电影要四星以上并且是免费观看的。”
优势2:解放双手和双眼
通过语言交互可以将手和眼睛空起来处理其他事情,在需要多感官协同的场景下效率更高。例如:车载场景通过语音点播音乐,医疗场景医生在沟通病情的同时记录病历,工业场景在双手占用的同时下达指令。
优势3:使用门槛低
- 非文字使用者友好:人类是先有语音再有文字,每个人都会说话但有一部分人不会写字,针对老人、小孩、失明的人群,无法使用文字交互,语音交互会为其带来极大的便利。
- 学习成本低:语音交互更自然,在非复杂场景下,语音交互比界面交互更自然,上手成本更低。
优势4:传递声学信息
- 声纹识人:通过声纹可以进行身份判断,并且可以在下达指令的同时进行身份判断,百思特网效率更高。同时声音还可以判断性别、年龄层、情绪等信息。
- 声音传递情感:声音交互可以传递情感,因此在有情感诉求的场景下,声音是一个很好的选择。
PART 2:语音交互的劣势
劣势1:信息接收效率低
语音输出是线性的,当别人说话时,你可能得等全部说完后才能理解,无法像文字一样可以跳过阅读;语音交互也会增加用户的记忆负担,尤其是面临多项选择并且选项内容较长时。
因此它无法同时输出很多内容,在接受信息和多选择交互时,视觉具有更大的优势,声音的效率不高。所以来讲,语音交互针对单向指令是更有效的,而双向交互不是很有效。
劣势2:嘈杂环境下语音识别精度降低
语音识别需要清晰的识别出人声,包括将人声和环境声进行分离,将人声和人声进行分离。嘈杂环境使得人声的提取变得非常困难,尤其是针对远场语音交互,噪音的问题更加突出。
目前业内普遍使用麦克风阵列硬件和相关算法来优化该问题,但是无法完全解决,例如远场安静环境下语音识别准确率能达到95%,但是在嘈杂环境下仅能达到80%出头。但是随着技术的进度,嘈杂环境下的远场语音识别准确度也肯定会逐步完提升。
劣势3:公开环境下语音交互具有心理负担
语音交互的心理障碍是用户不能预设和预先判断。在同一情况下,不同的人可能会产生完全不同的行为和期望。这给设计者带来了很大的麻烦,也给用户带来了不确定性。从心理体验来看,没有多少人愿意对着机器说话,因为有可能会得到毫无感情甚至是错误的反应
3. 语音交互适合什么场景和设备?
我们判断什么场景和设备适合增加语音交互,根据语音交互的优劣势分析,得出以下加分项和减分项,为了简单起见,每个得分享赋予相同的权重,然后计算综合得分,将适用程度划分为高、中、低3档,分别记2、1、0分。
原则1:每个设备类型仅考虑起本身的功能,不考虑因为入口性质附加的额外功能,例如智能音箱,现在除了音箱属性,被赋予了天气、智能家居等其他属性。未来形态下家庭语音入口会分布式的,智能音箱被赋予的生活助手的角色也会被剥离。
原则2:设备的功能考量时会考虑现在还不具备但是以后会延展的相关功能,例如冰箱,支持查询冰箱内的物品情况。
- 需要复杂的信息输入:输入指令不能被穷举,则得分最高,如果仅简单的输入指令,则得分低;
- 使用对象双手或双眼被占用;
- 使用对象为非文字使用者:如果使用人群里老人、小孩和失明人群较多,则得分高,反之得分低;
- 需要跨短距离空间的操作:如果有实体按键,则得分高,如果可远程遥控则得分次之,而且皆无,则不得分;
- 原信息输入的工具比较受限:输入方式的便利程度触屏
派优网部分新闻资讯、展示的图片素材等内容均为用户自发上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习交流。用户通过本站上传、发布任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请
联系我们一经核实,立即删除。并对发布账号进行封禁。
相关推荐
-
每年11月底的“黑色星期五”,是美国一年中最重要的购物节,2022年最引人注目的两位选手都来自中国。 SHEIN号称美版拼多多,2021年超越了亚马逊,成为美国下载量排名第一的购物…
-
随着互联网的发展,游戏行业也在迅猛发展起来,做手游代理的人越来越多,手游代理作为一个轻创业,属于个人和工作室都可以操作的项目。由于手游联运平台和很多推广平台的出现,个人也可以操作手…
-
琴心剑胆:琴、剑是古代文人常备之物,琴象征高雅的情趣,剑象征无穷的胆量。比喻既有柔情,又有胆识,刚柔相济。 元.吴莱《寄董与几》诗:“小榻琴心展,长缨剑胆舒。”
-
第一单元 近义词: 丝绦——丝带 裁——剪 奔——跑 仔细——细心 寻找——寻觅 懊丧——沮丧 惊奇——诧异 格外——特别 兴致勃勃——兴味盎然 反义词: 赶紧——迟缓 懊丧——兴…
-
昨天,有个钓友问了一个问题,他是一个钓鱼的新手,刚开始学钓鱼没多久,想买一支价格在百元左右,且用起来还不错的野钓综合竿。 我想这个问题,不仅仅发生在这一个钓友身上,应该所有的初学钓…
-
随着电脑的普及,电脑死机问题也逐渐成为了很多人面临的问题。特别是在使用惠普电脑的时候,经常会遇到电脑开机死机的情况。那么,惠普电脑开机死机怎么解决呢?下面就为大家介绍几种方法,帮助…
-
多年前,传奇营销人、巨人网络集团董事长史玉柱说过一句话,我一直印象深刻: 营销是没有专家的,唯一的专家是消费者,就是你只要能打动消费者就行了。 有经验的营销人不会为了策划而策划、为…
-
微信开店小程序是当下流行的线上营销工具,它可以帮助商家快速搭建线上店铺,拓展销售渠道。下面将详细介绍微信开店小程序的搭建过程以及相关费用。 一、微信开店小程序的搭建步骤 1. 注册…
-
成都是一个美食之城,拥有着无数的特色小吃,其中不乏价格实惠的可带走的美食。如果你来到成都,一定不能错过这些特色小吃,下面就为大家介绍几款必点的特色小吃。 一、夫妻肺片 夫妻肺片是成…
-
答案是肯定的,旗舰店确实是正品无疑,因为是官方认证的,也在这么多年经营中得到了认可。 但是,就有很多人质疑了,明明我在旗舰店买到的质量和实体店有差别,看着真不像正品。这不,我前天在…