智能语音在呼叫领域应用广泛但在“+”之后更精彩-安防网

安防新闻 技术发展的关键在于落地，“语音”作为目前人工智能领域落地*为成熟的技术，以准确率可达95%以上的识别水平，已经逐渐步入商业化阶段。而语音交互的实现主要取决于两点：语音识别及语义理解。

目前中国智能语音市场被科大讯飞、百度和苹果占据绝大多数市场份额，2015年三家合计达79%。其中，科大讯飞市场份额为44.2%，处于市场**地位。百度进入势头强劲，市场份额增长快速。

一、智能语音：谈入口太早，但不可或缺

智能音箱是台面上的狂欢，本质还在用户、数据和服务

自2014年11月Amazon推出收款基于语音交互的智能音箱Echo以来，2015年科大讯飞发布智能音箱叮咚，2016年谷歌发布智能音箱GoogleHome。

而进入2017年以后更是密集，5月联想发布智能音箱，Amazon发布带触屏的EchoShow，微软联手音频设备制造商哈曼.卡顿合作打造Invoke，6月苹果发布HomePod。同时国内BAT等互联网巨头也纷纷有意入局。

智能音箱本身不是目的，争夺的是背后的用户、数据以及服务入口。其实基于语音交互技术的入口产品可以是音箱、电视等家居产品，甚至可以是室内可及的智能设备，之所以选择音箱作为突破口，只不过看重这样一款在初期能承担除交互之外其他功能的载体。

对于用户而言，需要的是能够将众多繁杂的应用和接口进行封装的工具，不再需要自己主动到每一个具体应用上获取服务，而是借助语音交互统一的入口提供。对于巨头公司而言，目的在于借此获得移动互联网之后一个能够获取用户数据并持续提供服务的入口。

单就智能音箱而言，交互体验和连接的服务是影响用户选择的重要因素。抛开智能音箱的设定，其本质是一款基于语音进行人机交互的智能硬件，在算法层面涉及到降噪、远场识别、唤醒与打断以及多轮会话、语义分析等自然语言理解技术，硬件层面主要涉及到进行声音采集的麦克风阵列技术以及声音播放时扬声器处理。软硬件的协同配合方能使得人机交互更为自然。

如果说播放音乐是传统音箱的主要功能，那么对于智能音箱而言，这已经几乎成为附带选项，互相之间拼的不是、或者说不只是音质问题，更多是人机交互的体验，以及交互背后所能支撑和兼容的服务数量与质量。无论是对接线上的互联网服务，还是线下智能家居系列产品，若无法形成产品、应用以及数据的生态闭环，则智能音箱的入口目标就难以达成。

国内智能音箱的惨淡销量还与消费习惯相关，用户培育需要时间。与AmazonEcho千万量级销量相比，国内科大讯飞与京东联合发布的叮咚音箱销量似乎逊色不止一筹。除了在技术和应用层面可能存在的差异之外，各自根植的土壤环境也有着先天的差异。

若去掉“智能”的概念，智能音箱首先是个音箱，与欧美超过85%的家庭音箱普及率相比，国内甚至不足20%，在对音乐以及音箱设备的需求观念上的差异导致音箱对欧美人群或许是“生活刚需”，而对国内用户或许目前还只是少部分人的爱好。正如前文所述，音箱只是恰好成为载体之一，*核心的依然是物联网时代智能终端的人机交互入口。

信息获取与表达决定语音交互成为阶段性不可或缺的一环

互联网PC时代人机交互主要依赖鼠标和键盘，移动互联网时代触摸屏交互成为标配，那么人工智能时代的交互会由哪种方式主宰?基于语音控制的智能音箱还是智能电视?

这些或许有可能成为智能家居入口，但即便AmazonEcho已然达到***销量及超过1万项技能点，似乎也不足以成为人工智能时代交互入口的产品担当。

从信息获取以及表达的角度来看，交互入口的演变必然是从习惯到本能的**。从信息获取来看，研究表明，人的各种感觉器官从外界获取信息来源=视觉60%+听觉20%+触觉15%+味觉3%+嗅觉2%。

其中视觉、听觉及触觉累计高达95%，基于此或许就不难理解为何无论是互联网时代的PC还是移动互联网时代的智能机，不仅无法离开键鼠套装和触摸传感器，而且还无法离开那块或大或小的显示屏。

从信息表达来看，1967年美国**心理学家、传播学家艾伯特梅拉比安等人经过大量实验，提出人类在沟通中全部的表达信息=肢体语言信息55%+声音信息38%+语言信息7%，或许这也能在一定程度上解释为何各家智能音箱先后登场却依然未能挑起入口大梁。

我们认为，从键鼠输入的抽象符号到触摸屏直接的滑动与按压，这已经在一定程度上靠近了人类习惯，而未来的交互方式将更为接近人的本能。

语音或许是人机交互的阶段性成果，基于语音的人机交互或许会成为某个特定场景的入口，但语音与肢体动作的融合或许更可能担当得起一个时代的交互入口，至于更为遥远的未来，或许会有类似脑电波等其他方式。

二、智能语音相关技术及发展历史

智能语音主要研究人机之间语音信息的处理和反馈问题，从表现形式来看，即研究如何通过语音实现人机交互，相关支撑技术主要可划分为基础语音技术、智能化技术以及大数据技术。

语音识别准确率在引入深度学习之后得到快速提升。语音目标在于使机器*终能够将识别语音中的内容、说话人、语种等信息。在技术思路经历了基于标准模板匹配和基于统计模型(HMM)两个阶段;

2010年开始由微软的俞栋、邓力等与Hinton合作，在语音识别领域引入深度学习替换传统的特征提取，随着深度学习的引入以及在此基础上派生的各类模型的组合，语音识别准确率大幅提升。

2017年3月IBM通过长短时记忆、WaveNet语言模型和三个强声学模型的组合，在Switchboard数据集上电话语音识别错误率降低到5.5%，无论是对比微软2016年测试结果给出的人类速记员5.9%错误率还是此次IBM给出的人类5.1%，机器都已经极为接近人类水平。

语音合成已有200多年悠久历史，表现力尚有待继续提升。在计算机技术出现之前主要模仿人体发声原理制作相应硬件，计算机技术出现后音质、音色和自然度都有提升。随着技术演进，语音合成的复杂度、自然度和音质都已取得不错的成绩，目前研究重点在于提高合成音的表现力，如语气和情感等。

声纹识别目前也正向着深度学习方向发展，但不管是用传统算法还是深度学习，都需要事先建立声纹库。

声纹识别主要根据语音波形反馈的说话人生理和行为特征，自动识别说话人身份，在**性上可与指纹、掌形和虹膜等生物识别技术相媲美，目前已经用于公安和司法系统证据鉴定中的身份鉴别，以及银行支付过程的身份认证。

声纹识别和语音识别结合，能通过识别内容防止录音假冒，和情绪识别结合，则可以感知识别对象是否处于受胁迫状态。声纹识别需要相应的声纹库，且至少要保证合理的性别、年龄段、地域、口音、职业分布。

测试样本应该涵盖文本内容是否相关、采集设备、传输信道、环境噪音、录音回放、声音模仿、时间跨度、采样时长、健康状况和情感因素等主要影响因素，因而声纹数据库成为声纹识别技术突破的重要门槛。目前*全的是公安部的声纹鉴别库。

自然语言理解目前尚处于浅层语义分析阶段，大致包含词法分析、句法分析、语义分析这三个既递进又相互包含的层面。

目前机器对句子的理解还只能做到语义角色标注层面，即标出句中的句子成分和主被动关系等，属于浅层语义分析技术。未来要让机器更好地理解人类语言，并实现自然交互，还有待深度学习等机器学习方法的进步。

多轮对话，主要建立在语音识别、合成以及自然语言理解等技术基础之上，自然度和准确度有待提高。

多轮对话系统一般分为任务型和闲聊型，任务型是协助用户完成具体的某项事情，如：设置闹钟、查天气等;而闲聊型是实现人机的情感聊天互动，如陪护型机器人。多轮对话相比单轮对话方式提高了用户交互的自然度和准确度。

你可能感兴趣：首页推荐行业新闻时事速递图片智能家居

资讯发现

智能语音在呼叫领域应用广泛但在“+”之后更精彩

*新资讯