查看原文
其他

2020年中国智能语音行业研究报告

艾瑞 艾瑞咨询 2021-03-07
智能语音丨研究报告

全文字数:5612  精读时间:14分钟


核心摘要:人类对机器语音识别的探索始于20世纪50年代,迄今已逾70年。2016年,在深度神经网络的帮助下,机器语音识别准确率第一次达到人类水平,意味着智能语音技术落地期到来。不过人们面对“AI”时希望得到自然、类人的交互体验,这是一个宏伟的开放性课题,背后涉及的各学科技术仍有不足,还面临长期的求索方能突破。消费级智能硬件是最早显示出市场潜力的赛道,市场各方都在瞄准消费级智能交互终端。而智能终端的背后还有广阔的生态,包括语音开放平台、语音操作系统、内容等等,近年行业正在经历从单一商业模式向多元化商业模式的变迁,技术输出的“厚度”增加,“边界”扩大,也带来了技术落地曲线的加速度增加。智能语音企业级和公共级市场主要有平台化技术输出和解决方案两类商业模式,解决方案业务占比较高。与国外市场以医疗为重头有所差异,我国市场以智能客服、公检法及教育业务份额更高。智能语音为各行业解决了刚需性问题,将促进各行业业务效率的提升。

目前全国约有超过250家企业参与智能语音语义市场。互联网巨头、技术提供方、设备商和行业集成商应分别重视连续性投入支持问题、基础开发模块标准化程度提升与商务团队配置问题、设备后服务增长问题和软件研发能力建设问题,迎接人机交互升级带来的行业价值链扩张。

智能语音的概念

智能语音即实现人与机器以语言为纽带的通信

智能语音即实现人与机器以语言为纽带的通信。人类大脑皮层每天处理的信息中,声音信息占20%,它是沟通最重要的纽带,人机对话将方便人们的工作与生活。完整的人机对话包括声音信号的前端处理、将声音转为文字供机器处理、在机器生成语言之后,用语音合成技术将文本语言转化为声波,从而形成完整的人机语音交互。

智能语音的前情提要

机器“听觉”本质上是对声音特征和文本的分类任务

人的听觉形成过程是将声能转变为机械能、再转为生物电信号,在听觉中枢加工、分析的结果,而机器的“听觉”则经过声音信号-音频信号-电信号-特征向量-解码为文字-理解的过程,本质是对声音特征和文本的分类任务(将字音分类对应为文字、将文字对应为潜在语义),如果需要机器感知声音的起止和音色等特征,还需要另外进行信号处理与特征分类任务。

深度神经网络是智能语音技术近年达到落地可用的推动器

2011年,微软研究院提出的基于上下文相关深度神经网络和隐马尔可夫模型的声学模型在大词汇量连续语音识别任务上获得了显著的性能提升,从此大量研究人员开始转向深度学习在智能语音领域的研究,2016年,机器语音识别准确率第一次达到人类水平,意味着智能语音技术的落地期到来。近年,研究方向主要是端到端神经网络及针对实际应用中的算法优化。

所涉学科及其研究任务

本章小结

技术闭环完成度有待提升,面临长期的求索方能突破

智能语音背后涉及的声学研究、模式识别研究、通用NLP研究及垂直场景的深度语义理解等还未成熟到拼成一个没有明显短板的“木桶”,在交互体验、使用效果、场景性优化等方面都还有很长的路。与人工智能发展最快的分支计算机视觉相比,尽管二者都凭借深度学习取得重大突破,并在识别准确率上达到人类水平,但计算机视觉通过人脸识别这一大技术分支便高完成度地解决1:1或1:N比对问题,快速渗透到了各行各业;智能语音技术要解决的却远远不是1:1或1:N的比对,而是人们面对“AI”时希望得到的自然、类人、甚至高信息密度的交互体验,这是一个宏伟的开放性课题,因此尽管智能语音已取得了一些商业上的成就,但仍面临长期的求索方能突破。

子研究:消费级市场

国内智能音箱卡位家庭流量迁移(1/3)

从PC与移动互联网看流量迁移模型

目前移动数据及互联网业务收入达到固定数据及互联网业务收入的三倍,说明互联网流量大量迁移到移动端。智能音箱厂商则希望在智能音箱从用户家庭场景流量中分一杯羹,成为家庭场景流量入口。借鉴移动互联网的经验,有三个关键因素将促成设备端口的流量增长:终端可得性、接入便利性、应用丰富性。

智能音箱的渗透情况
在我国城镇住房中渗透率达到20%
预计到2019年底,中国智能音箱累计出货量超过7200万台,在我国城镇住房中渗透率达到20%,接近2012年智能手机的渗透程度,“终端可得性”条件初步具备,跨过了家庭流量迁移的第一道门槛。

国内智能音箱卡位家庭流量迁移(2/3)
为什么说国内智能音箱会成为巨头的市场

2019年,尽管我国智能音箱硬件补贴已进入收缩阶段,补贴额依然达到15.8亿元(产品库存对该数值有一定影响),中小玩家难以支撑大量补贴,因此巨头占据了绝大部分市场。目前智能音箱市场主要由天猫精灵、小度音箱和小度在家、小爱音箱占据,互联网基因使它们在智能音箱产品上复制了互联网玩法——补贴攻城、低价策略、互联网服务运营回血,同时应用开发者的广泛聚拢、产品智能化提升的开发都需要强大的资金和资源支持,使智能音箱市场很难存在群雄并起的格局,智能音箱的流量也相应聚拢在大平台。而在智能音箱的生产成本中,麦克风阵列仍然是最大的部分。

国内智能音箱卡位家庭流量迁移(3/3)
流量的变现模式是下一步需要考虑的问题
目前终端设备销售以外的商业化还不是市场主要关注的问题,但已开始有一些尝试。智能音箱的应用/技能基本是以设备绑定形式存在,因此品牌设备方本身也是平台方(可以理解为智能音箱的核心预置应用、应用商店、主页、操作系统提供方),这为智能音箱更好地复制互联网变现模式打下了基础,电商购物、平台广告植入、应用推广和应用内购买(IAP)分成、用户增值服务付费、开发者服务等都是可能的变现方式,其中用户增值服务和电商购物已开始抢跑。与传统的互联网产品商业模式相比,由于前述智能音箱在活跃度、应用丰富性、流量质量等尚未取得突破,且口播广告不符合音箱产品使用逻辑、信息流及原生广告有待开发,因此广告形式、应用推广及IAP形式的变现还存在较大瓶颈。

本章小结
复盘消费级市场:商业模式多元化与技术落地曲线的加速度

在智能音箱部分我们探讨了品牌设备商如何形成多元化的变现模式,对于消费级市场另一大主力参与者——语音交互技术提供方而言,发展空间也远远不止下游B端品牌设备商在设备开发过程中支付的技术付费。一方面,技术提供方可以通过提供芯片、麦克风阵列解决方案、AI算法的全链方案,增加技术输出的“厚度”,同时实现技术与解决方案的研发中基础环节与模块标准化,降低客户的开发配置门槛;另一方面,强化对应用场景的理解,打磨交互功能和用户体验,给实际问题提供“向前一步”的解决能力,从而获得C端收费的可能。这两类发展空间的实现有赖于两点基础要素:(1)具备全链条语音交互技术能力;(2)有建立用户联系、获取用户体验反馈的场景。

子研究:企业级与公共级市场

企业级与公共级市场画像

平台化技术输出和解决方案两类模式,解决方案业务占比高
智能语音消费者业务主要通过硬件出售及相关互联网增值服务获利,而企业级和公共级业务则主要有两类合作模式:一是技术平台输出模式,将通用技术能力封装为SDK或API,下游客户或生态中的开发者使用时向技术提供方支付一定费用,当然为了促进生态的快速发展,一些平台如华为HiAI、百度语音技术采取面向开发者免费的策略;二是切入传统行业,提供解决方案(含核心设备),这种情形下涉及智能语音企业与传统行业集成商或最终客户进行定制化、深度合作。

智能语音与医疗健康(1/2)
核心价值在于提升输入效率和查询效率
医疗领域对于智能语音的需求主要来自电子病历系统上的语音功能,通过语音输入的方式生成结构化病例、执行病例检索,节约医师输入病历的时间,解决方案一般包括ASR/NLU技术和专用医疗麦克风。在导诊机器人、问诊小程序、诊后随访系统、住院病房管理系统、临床决策支持系统(CDSS)中也有应用。在落地过程中,需要重视针对医疗专业术语和各科室专有名词/符号/用药等知识进行模型训练和优化,建立筛选机制以过滤问诊无关信息,并进一步增强病例整理的语义标准化与深度结构化能力,以使系统便捷提取病例主症状、伴随症状、用药等重要特征信息。

智能语音与医疗健康(2/2)
发展速度受限于我国医疗信息化建设现状

Nuance是全球最大的智能语音公司,2018年其在医疗业务上取得9.9亿美元收入,占公司总收入的48%。相较而言,我国智能语音市场中2018年医疗健康仅占0.7%。这主要是由于美国医疗机构以私立为主,对诊疗服务人性化、医疗信息化关注度更高;我国医疗信息化发展水平相对落后,三级以下医院信息化建设经费有限、专项政策引导力度有待提升、数据孤岛普遍存在,因此目前市场处于单点式推进状态,短期内推进速度比较平稳。不过,智能临床决策支持系统和电子病历语音录入等应用与医疗信息系统打通集成、分级诊疗、医保控费、民生建设等都有直接关系,若相关政策引导加强、医疗数据标准建立和医疗数据跨机构整合推动加速,则有望复制海外市场的医疗业务体量。按照现状估计,预计到2022年,我国电子病历语音输入累计覆盖近1600家三级与二级医院(付费数,渗透率分别为36%和4.5%),180万医生受益。

智能语音与公检法
帮助公检法系统实现便捷办公和战法突破

智能语音与教育
应用于教、管、测、考等环节

智能教育领域,AI课堂的建设进入快车道,强调两点:一是解决家校之间、线上线下之间学习资源互通的问题,二是通过多模态识别收集课堂学情信息并做数据精准分析,因此通过语音转录、语音识别等技术实现授课语音转录为文字、利用多模态识别进行课堂质量监测不可或缺。另一方面,在线教育竞争呈白热化态势,用技术解决教育资源的复用、增加学习交互体验感等诉求也促进了智能语音技术在线上口语测评、虚拟教师等领域的应用。考试赛道方面,北京、上海、江苏、广东等省市近年推行在新中考、新高考英语考试中以机考形式进行口语测试,因此人机对话技术和智能语音评测技术开始应用于考试场景,以提升口语考试的效率。

智能语音与客服
从人机对话辐射到营销管理和通话服务质检
相对于前文所述的医疗健康、公检法、教育领域,客服领域的行业开放性相对较高,对AI应用迫切性强,参与者众多,未来一段时期内业务体量较大。目前AI客服可以为IVR、APP、小程序、网页等各端口提供自动对话功能,应用场景包括智能营销、呼入服务应答、电话质检、在线客服及辅助人工服务,在一定程度上满足了减轻传统客服中心一线人员工作负担、减少用户等待应答、低成本增加企业营销曝光等需求,应用渗透率较高。但目前AI客服营销转化率低、呼入服务应答转人工率高、业务场景适应性对话系统的建设成本与效果性价比较低、真实场景中对话异常处理灵活度不够等问题依然是行业痛点。传统客服产业由客服软件开发商、呼叫中心厂商、硬件设备厂商、电信运营商和软件集成商组成,AI客服则涉及多种类型的企业:近年来通讯云厂商一定程度上取代了传统呼叫中心,其呼叫中心和云客服业务可以集成提供客服机器人能力,AI客服机器人公司和客服SaaS也可通过渠道或者直销模式为客户提供AI客服服务。

智能语音与互联网内容审核监管
特定声音检测和语音识别技术帮助净化网络环境

互联网的变迁使音视频内容的传播得以快速发展,经统计,我国部分头部娱乐社交类App月度总有效使用时长达到每月70亿-90亿小时,用户每天将从娱乐社交平台接触大量信息。这也带来了垃圾信息审核难题,2019年上半年,多款语音社交App因通过语音传播违规信息下架。粗略估计娱乐社交类App背后产生的音视频内容时长接近每月4700万小时,这一数字如果用年来表示,相当于5400年,显然通过人工审核音视频的方式净化网络环境是不可能实现的,而如果依靠举报再人工审核的方式也只如沧海一粟、大量问题语音将被漏查。目前除使用图像识别技术审核图片和视频帧外,以依图科技为代表的AI公司开始通过特定声音检测和语音识别技术赋能实时语音流及音频文件的内容审核,弥补之前针对互联网语音内容的审核空白,提高审核效率与准确度。

智能语音与泛传媒
增加媒体产能,丰富传播形式
智能语音在泛传媒领域的应用主要包括合成主播自动播发稿件,将外语音视频新闻或节目自动翻译、根据画面同步匹配字幕,及为新闻稿件文字自动合成语音等。以自动播发稿件为例,2019年全国两会期间,新华社AI合成主播共播发稿件236条,为资讯内容的生产提供了新的方式;而音频与文字之间的转换则丰富了媒体的传播形式,使用户能够按需、按喜好获取资讯服务。

子研究:市场参与者
中国智能语音行业图谱

中国智能语音行业热度
市场较为理性,入局企业数量252家
据统计,我国人工智能创业项目中处于语音识别和语义分析赛道的共有252家,占比10.6%。同时,根据国家工业信息安全发展研究中心数据,截至2018年底,我国人工智能领域合计申请专利44.4万件,而语音识别与自然语言处理技术则合计申请专利6.1万件,占比达到13.6%,反映出智能语音领域单位技术产出情况高于行业整体,且发展也更倚重技术要素。

写在最后
写在最后

AI助理的真正形态:向多模态高密度交互升级

在5G快速发展的背景下,高带宽和低时延特性使多模态识别开始普及,未来支持多模态识别的AI芯片、支持多模态识别的物联网操作系统以及AI算法将受益。多模态识别的主要应用场景包括车载(第三空间)、智能机器人、身份鉴定,具体将会通过语音识别、人脸识别、表情分析、唇动状态、眼球跟踪、手势识别、触觉监控等智能人机交互手段综合识别人的情绪、疲劳状态、复核验证人的身份,对于更加精准、主动和个性化地提供人机交互方式十分重要。

另一方面,语音转写已经成为智能语音技术落地的重要场景,目前在短时间、对话人数少的场景下应用效果较好,但在企业级和公共级场景下往往面临对话时间很长的情况,仅做语音转文字和简单的结构化,不能甄别有效信息、语义结构分类不理想等将是限制语音转写规模化落地的最大问题,行业的高速发展有赖于准确地按照需求提取长时语音消息的有效内容。

各类企业行动方向

文章精选

2019年5G行业研究报告

2019年中国产业互联网系列研究报告之二

2019年动漫二次元人群营销价值白皮书

搜索艾瑞过往报告,请点击进入小程序

点击阅读原文,查看完整报告

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存