本文共 3623 字,大约阅读时间需要 12 分钟。
摘要:虽然随着智能语音交互技术飞速发展,语音识别准确率不断提升,但在实际落地过程中很多业务场景仍需要针对性地进行语音识别优化。传统的语音识别优化方式需要依靠语音厂商的AI专家来进行,周期通常以周计甚至月计,环节多、周期长、风险高。为了解决传统语音智能识别优化的问题,使得智能识别优化不再依靠AI专家,而是让不懂技术的业务人员可以零门槛地进行识别优化,阿里云震撼发布了智能语音自学习平台。本讲中,让我们跟随阿里巴巴语音智能高级专家了解这款产品的特点、优化过程和效果。
演讲嘉宾简介:
周躜,阿里巴巴语音智能高级专家,来自阿里巴巴机器智能技术实验室。
以下内容根据演讲嘉宾视频分享以及PPT整理而成。
本次的分享主要分为二部分:
一、智能语音交互:该部分主要介绍智能语音交互的相关情况。
二、智能语音自学习平台: 该部分主要介绍智能语音学习平台概览、优势,同时简单演示了使用该平台进行自学习优化的过程和识别效果。
一、智能语音交互
随着LFR、DFSMN等自研语音关键技术的突破,阿里云智能语音交互产品的语音识别准确率在不断地提升,目前已经将全球最大的免费语音识别数据库的识别率记录提升到了96%。语音识别准确率的提升对业务提升起到了极大的推进作用,以法院为例,目前阿里法庭庭审语音识别已经覆盖了超过一万个法庭,也和福建高院、浙江高院等建立了战略合作关系。语音合成方面注重有温度的场景化声音合成,目前钉钉Ding消息覆盖用户超过一亿。另外,阿里巴巴也在各种各样的商业场景进行语音交互的输出,并取得了不错的成果,目前每年有超过两亿通电话由我们的智能客服机器人进行接听并提供服务。
除此之外,阿里巴巴正在打造下一代颠覆性的人机交互方案,并在地铁语音售票机、智能语音点餐机、远场语音电视和智联网汽车语音解决方案等很多场景进行了落地。智能语音点餐机就是一款典型的产品,它以人机交流的方式,能够像与服务员对话一样,在嘈杂的真实餐厅场景下,实现极为自然的口语化的下单,不管用户说话的语速有多快,所说的话有多长,这款产品都可以的很顺畅地完成和用户交流的过程。点餐机可以在五十秒之内为用户成功点三十杯咖啡,而如果换成人工点餐的话,则需要几分钟甚至更长的时间。
看到以上所介绍的智能语音交互实践,大家可能不禁会问,当前语音识别的技术发展是不是足够支持所有用户,在不经任何优化的情况下,可以使项目取得较好的落地效果。很遗憾,这个目标的实现目前来讲还是比较困难的。阿里云有一个行业Top合作伙伴,他们在很多项目上曾经试过业内所有的语音识别厂商,最终得到的结论是没有一家语音识别厂商在不经过调优的情况下,就能够满足其业务场景的需求,因为通常情况下每个落地项目均有一些非常特殊的细分领域甚至细分业务的表达方式。比如,对于非石油行业的人来说,他基本上是没听过“前路冲断带”、“海相碳酸盐岩”等这些词的,同样使用通用模型来进行识别的效果将会非常差。
为了解决上述问题,语音厂商通常会为用户提供相应的算法调优服务,这个工作需要语音识别AI科学家来进行调优以达到较好的效果,通常也都能达到一个较好的效果。但是这里面有一个严重的隐患,由于对语音厂商AI科学家的依赖,这种调优往往满足不了快速迭代的业务诉求。阿里巴巴语音团队在两年前和蚂蚁做了一个智能机器人,实现对客户相关咨询的智能解答。这个项目如往常一样在上线之前做了大量的调优以满足其对识别效果的要求,上线之初业务效果非常好,实现了对相关流量的百分百支撑,极大地降低了人工坐席呼入量,大家都认为这是一个成功的项目。但某一天机器人智能解答出了问题,人工坐席呼入量突然暴涨了几倍。后来通过分析发现,在问题出现的前一天,支付宝刚刚发布了一款新的产品—“花呗”,“花呗”这个词是支付宝创造出来、之前从未有过的名词,相关的用户问题也从未有过,这个时候原有的识别模型将不再起作用,从而机器人无法识别相关内容造成人工坐席的呼入量剧增。这种识别问题必须马上解决,但常规的周期一般是几周,这时候这种传统的优化手段就完全不能满足业务的需求了。
因此,我们想要寻找一种手段,来解决传统语音智能识别优化的问题,使得智能识别优化不再依靠AI专家,而是可以让语音智能自主学习。很高兴这个目标我们现在实现了!现在隆重地向大家介绍一位新的朋友,那就是阿里巴巴震撼发布的智能语音自学习平台。
二、语音自学习平台介绍
概览
阿里巴巴智能语音自学习平台突破性地提供一键式智能语音自助优化方案,将整个语音智能模型的数据输入、模型训练、模型测试和模型发布有机地融合在一起并以非常简单的方式对外提供,极大地降低智能语音优化的实践门槛,使得语音识别优化不再依赖于语音供应商的专家服务,让每一个合作伙伴甚至最终客户的运营人员无需了解AI技术即可快速显著提升自己业务的识别准确率满足业务需求
产品特性
语音专属模型自助定制。语音自学习平台最重要的特性是支持语音专属模型的自助定制。大家都知道,对于任何一个机器学习模型来讲,只有用业务相关的真实、新鲜数据进行训练才能取得较好的效果。而这些真实新鲜数据往往掌握在业务人员手中。因此我们提供了杀手锏功能,就是业务人员可以根据自己的情况整理相关的业务材料然后上传,比如业务介绍、产品说明书、常见问题等,然后通过我们的智能语音自学习平台可以生成产品专属的业务模型。这样的话,如果某个产品需要上线,只需要在上线之前将产品的相关业务材料上传,智能语音自学习平台就可以实现针对新的业务内容的语音识别。
更多定制功能。每个人的联系人是不一样的,很多时候我们需要识别相同发音的不同联系人,比如我有一个朋友叫“张三”,你有一个朋友叫“章三”,那怎么样实现你说“zhangsan”的时候我们识别成“章三”?智能语音自学习平台提供了个性化联系人的功能,用户只需要将联系人信息导入到自学习平台,平台便会通过该功能实现联系人的准确识别;另外自学习平台还提供场景化POI的功能,比如在浙江和北京都有相同发音的路名,平台通过用户所在的地理位置来区分相同发音的路;除了前两个功能,自学习平台还提供业务热词的优化能力,这些业务热词可以秒级实时优化,即时生效,不再受限于传统语音厂商的优化服务。
产品特点
迅如闪电。这是智能语音自学习平台的最大优势,之前已经介绍过,传统的智能语音优化方式中的模型优化通常需要数周甚至数月之久,而智能语音自学习平台可以很轻松地实现分钟级定制模型优化,对于热词可以实现秒级的实时生效。这样有利于业务迭代速度的提升,而不再担心由于新的业务出现而影响整体识别效果。
准。智能语音自学习平台能够很大程度上提升语音识别效果,这一点在很多案例里面都得到了验证。前面提到的那个说过未经优化没有谁能满足他们业务需求的行业Top合作伙伴之前使用通用模型在有些项目的识别准确率确实较差,而在使用了自学习平台平台之后,识别准确率不但满足了业务需求,甚至还超过了百分之九十。
全面的定制能力。我们的智能语音自学习平台支持全粒度的定制,满足客户对词的优化、句子优化和篇章优化的需求;其次,平台提供全环境部署,不管用户在公有云,还是对数据隔离性有较高要求的的专有云(如银行和政务)均能享受到智能语音自学习平台带来的好处;另外,平台全面开放接口,不管用户想基于控制台优化还是通过API将平台能力嵌入到内部业务系统中,使得业务人员能够更顺畅地来使用,这些定制化的能力平台也都是支持的。
共筑语音智能新生态。最后一点是我们最想着重强调的,通过阿里提供的智能语音自学习平台,改变了整个智能语音的生态,使得以前只有语音厂商的AI科学家才能做的语音智能优化,现在所有的语音厂商、合作伙伴以及用户,都可以通过智能语音自学习平台轻松地完成。
效果展示
接下来对我们智能语音自学习平台做一下简单的展示。如下图所示,右边是一个真实的业务场景,涉及到非常复杂且专业化的一句话,左边首先展示的是不进行优化的识别效果,大家可以看到,像“海相碳酸盐岩”和“前路冲断代”这种词的识别效果都不好,这是因为其本身的业务特点造成的。
接下来我们来演示一下通过智能语音自学习平台进行识别的效果。
模型创建。在平台中,首先需要创建一个新的模型,然后通过“点击上传”导入相关语料,点击保存即可完成模型的创建。
模型训练并上线部署。点击“训练模型”即可对模型进行训练。之前已经介绍过,之前的模型优化由于依赖AI专家,使得整个的模型训练是非常缓慢的,交互周期通常以周计或以月计;而通过我们平台完成模型训练—上线部署只需要短短几分钟甚至几十秒的时间。
优化后语音识别。下图展示了通过我们的智能语音自学习平台进行的模型优化训练后的识别效果,大家可以发现,“海相碳酸盐岩”、“前陆冲断代”等词语取得了比较明显的语音识别准确率的提升。而整个过程的优化,零基础的人也可以通过我们的平台快速地实现。
本文由云栖志愿小组李杉杉整理
转载地址:http://jtexa.baihongyu.com/