人造智能技艺在声纹识别方面包车型地铁运用,声纹识别

中新网1月21日电 日前,语音 AI
领军企业云知声宣布,其与中国领先的一站式医疗健康生态平台平安好医生共同研发的“声纹登录系统”经过多次模型优化和升级迭代后,登录成功率接近
99%,达行业一流水准。

更多AI资讯,关注:九三智能控

同属于生物识别技术,与火爆的人脸识别相比,声纹识别表现得很低调,然而这并不影响这一黑科技魅力的散发,本文将带你认识一下声音黑科技-声纹识别,让你了解真正的“闻声识人”。

图片 1

       
人工智能技术对于传统产业的推进作用越来越凸显,极大提升了传统产品的商业价值。“听声识我,开口即播”长虹CHiQ5人工智能电视成为全球首款搭载声纹识别的人工智能电视,可以直接通过每个人说话的声音不同而区分目前使用电视用户是谁,从而实现内容的精准推荐。无需借助遥控和手机等智能设备,通过识别家庭成员的声纹来控制电视。语音助手配备海量语音库,使用语义模糊识别功能,即使说错片名也能自动识别出你想要的内容,但是当人们在观看某一节目的时候谈论提及其他电视节目名称,语音助手功能识别后当即转换到另一个节目影响正常节目的观看。但是在价格方面,55寸售价7597元,65寸售价13997元,75寸售价21997元,价格过高难以普及,但是也从侧面证明人工智能确实可以提升产品附加值。

图片 2

声纹识别(Voiceprint
Recognition,VPR)也称说话人识别,是一种通过声音判别说话人身份的技术,分为说话人辨识和说话人确认。前者用以判断某段语音是若干人中的哪一个所说的,即“
N
选一”;后者用以确认某段语音是否是指定的某人所说,是“1对1匹配”问题。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需用到确认技术。

      
 目前人工智能发力的领域主要集中在指纹、脸、声音、眼睛等等,都是人和人之间相互区分的独一无二的标识上,称之为“生物特征”。声音就是这种一种可以反映人身份的生物特征,参考“指纹”的命名方式,可以叫它“声纹”。
声纹是指人类语音中携带言语信息的声波频谱,它同指纹一样,具备独特的生物学特征,具有身份识别的作用,不仅具有特定性,而且具有相对的稳定性。声音信号是一维连续信号,将它进行离散化后,就可以得到我们现在常见的计算机可以处理的声音信号。

本文将从如下方面为你一一解读:

云知声声纹技术负责人表示,作为国内为数不多具备全栈语音技术能力的人工智能公司,云知声已在声纹技术领域深耕多年。团队多位技术骨干曾在美国国家标准技术署主办的说话人识别技术评测中多次屡次斩获第一名,且早在
2004
年,尚就职于摩托罗拉公司的云知声公司创始人黄伟博士便带领团队研发出世界上第一款手机声纹认证系统,搭载该系统的相关产品总计销量超
2 亿台。

图片 3

什么是声纹?

近年来,伴随深度学习的兴起,云知声在国内率先将这一技术使用到语音识别中,且后续引入到声纹识别领域,解决了一系列声纹技术实用难点,并应用到实际产品上。此次,云知声和平安好医生联手打造的平安好医生客户端用户声纹登录系统便是其中一项成功案例。

     
 在实际应用中,声纹识别也存在一些缺点,比如同一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响;比如不同的麦克风和信道对识别性能有影响;比如环境噪音对识别有干扰;又比如混合说话人的情形下人的声纹特征不易提取;……等等。尽管如此,与其他生物特征相比,声纹识别的应用有一些特殊的优势:(1)蕴含声纹特征的语音获取方便、自然,声纹提取可在不知不觉中完成,因此使用者的接受程度也高;(2)获取语音的识别成本低廉,使用简单,一个麦克风即可,在使用通讯设备时更无需额外的录音设备;(3)适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录;(4)声纹辨认和确认的算法复杂度低;(5)配合一些其他措施,如通过语音识别进行内容鉴别等,可以提高准确率;……等等。这些优势使得声纹识别的应用越来越受到系统开发者和用户青睐,声纹识别的世界市场占有率15.8%,仅次于指纹和掌纹的生物特征识别,并有不断上升的趋势。

声纹识别的原理

云知声声纹技术负责人指出,虽然声纹识别优势明显,但是要想准确分辨声音特征却并非易事。首先,声纹识别系统性能会受用户发声状态影响,如用户的身体状况、情绪等都会影响识别准确度。其次,环境的嘈杂度,以及采集、传输音频的硬件配置,都会在不同程度上对识别系统造成干扰。

        声纹识别(也称说话人识别)技术也如同现在在智能手机上应用十分广泛的指纹识别技术一样,从说话人发出的语音信号中提取语音特征,并据此对说话人进行身份验证的生物识别技术。每个人都具有独一无二的声纹,这是由我们的发声器官在成长过程中逐渐形成的特征。无论别人对我们的说话模仿的多么相似,声纹其实都是具有显著区别的。声纹识别(Voiceprint
Recognition, VPR),也称为说话人识别(Speaker
Recognition),有两类,即说话人辨认(Speaker
Identification)和说话人确认(Speaker
Verification)。前者用以判断某段语音是若干人中的哪一个所说的,是”多选一”问题;而后者用以确认某段语音是否是指定的某个人所说的,是”一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。不管是辨认还是确认,都需要先对说话人的声纹进行建模,这就是所谓的”训练”或”学习”过程。

声纹识别算法的技术指标

为解决上述难点,云知声声纹技术团队进行了一系列技术攻坚与创新。首先,依托云知声强大的语音信号前端处理技术,如
VAD、语音降噪等,准确地捕捉到人声并进行背景噪声消除;其次,云知声将 DNN
引入到传统声纹识别 ivector
技术框架中,并融合最新端到端声纹识别技术,基于云知声超算平台和海量声纹训练数据,使得模型得以学习到数万说话人,每人多种发声的特性,且在云端针对每个用户采用说话人自适应技术,达到越用越好的效果;在信道处理上,采用
PLDA 信道补偿技术,可将信道影响降到最小。

        现实生活中的“未见其人,先闻其声”就是人类通过声音去识别另一个人身份的真实描述,虽然目前计算机还做不到通过一个字就判断出人的身份,但是利用大量的训练语音数据,可以学出一个“智商”还不错的“声纹”大脑,它在你说出8-10个字的情况下可以判断出是不是你在说话,或者在你说1分钟以上的话后,就可以准确地判断出你是否是给定的1000人中的一员。这里面其实包含了大部分生物识别系统都适用的重要概念:1:1

1:N,同时也包含了只有在声纹识别技术中存在的独特的概念:内容相关和内容无关。

影响声纹识别水平的因素

据悉,为保障用户登陆的“安全性”,云知声为平安好医生客户端声纹登录系统提供数字串注册和登录的“文本弱相关”技术,工程难度更高,安全性更强。与传统固定口令登录方式不同,该系统采用随机数字串登录方式,即在用户进行登录时,系统会随机下发
8 位随机数字串,可有效规避录音攻击等安全问题。

        对于一个生物识别系统而言,如果它的工作模式是需要你提供自己的身份(账号)以及生物特征,然后跟之前保存好的你本人的生物特征进行比对,确认两者是否一致(即你是不是你),那么它是一个1:1的识别系统(也可以叫说话人确认,Speaker
Verification);如果它只需要你提供生物特征,然后从后台多条生物特征记录中搜寻出哪个是你(即你是谁),或者哪个都不是你,那么它是一个1:N的识别系统(也可以叫辨认,Speaker
Identification)。

声纹识别的应用流程

相关文章