图文详情

每个人的声音都有自己独特的“元素”，蕴含着先天生理和后天环境的影响。那么，声音是否也可以像指纹一样被用作密码，让生活更便利？清华—得意音通声纹处理联合实验室副主任、清华大学计算机系高级工程师邬晓钧老师带来演讲《解开声音密码，让老年人不必奔波千里领退休金》。

邬晓钧演讲视频：

以下为邬晓钧演讲实录：

大家好，我是邬晓钧。

养老保险是我国社会保障的重要组成部分。根据规定，到了法定退休年龄的老人，如果已经缴纳了足够年限的养老保险，退休后每月就可以领取养老金。养老金是老人晚年的生活保障，有利于社会稳定。

随着我国经济发展，医疗服务水平和健康水平都得到提高，人们越来越长寿了。2000年11月份，我国第五次人口普查数据表明，60岁以上的老年人口在总人口中的比例已经超过了10%，说明我国已经进入了老龄社会。

几年过去，我国老龄化的程度越来越高。到去年年底，全国老年人口总数已经占总人口的17.9%。根据预测， 2050年可能每三个人中间就会有一个老年人。

老年人增多了，领取养老金的人数也会增加，好多地方都出现了养老保险入不敷出的现象。人社部报告显示，2014年全国有三个省养老金入不敷出， 2015年有六个省，2016年有七个省。

但同时，各地也都出现了冒领养老金的现象。老人去世后，由于种种原因，他的帐户没有及时注销，还有人在继续冒领他的养老金，其中普遍是直系亲属。

2012年，北京顺义就发生了一起案件：老人已经去世了，但是儿子为了能够继续领养老金，就把尸体藏在家里头，半年多以后才被人发现。

人社部数据显示，2012年到2016年，全国查出来的被冒领的养老金就达到了7.6亿。

去年（2018年）上半年，安徽省比较了公安厅人口注销的数据和养老金领取的数据，发现大概有9800人涉嫌冒领养老金。这种现象实际上造成了养老保险基金的流失，严重破坏了我国在养老保险方面的公平、公正以及互助性，加剧了养老金的收支不平衡。

理论上，老人去世后的第二个月就应该停止发放养老金了，但是如果每个月都去核查所有老年人的生存状态，显然任务太困难艰巨。所以国家规定，退休人员每年要到现场认证一次，保证健在。

左边这幅图就是比较传统的方式，需要本人到场，然后提供有效证件。这两年很多社保局也在现场采用了指纹和人脸认证（右图），使得社保的年审更加方便快捷。

虽然每年只需要认证一次，可是对于那些路途遥远、行动不便以及和子女住在外地的老人，年审还是非常麻烦的一件事情。

为了方便群众，有些地方的社保局提供上门服务，派出工作人员到交通不便的地方去做上门认证，或者去探望卧床住院的那些老人。但是由于人员所限，能服务的老人还是极少数的。有些地方规定，跟子女居住在外地的老人可以到居住地的社保机构去做认证，然后把认证材料寄回去。但是在实施过程中发现，有很多人伪造认证材料。

也有些地方采取这样的方法：让老人拿一张当天的报纸拍照。这在一定程度上可以减少认证的困难。但很多老人意见很大，认为是对他们人格和生命的不尊重。而且这种方式触发了老人对于死亡的恐惧和焦虑，有些老人就觉得可能是在世的最后一张照片，非常不舒服。而且大家知道，现在P图的技术非常高，所以也出现了很多P图冒领养老金的情况。

指纹、人脸的认证确实很方便，但如果远程做认证的话，系统很难辨别图像是真是假，所以社保局也只能在现场架构相关设备，方便现场的认证。

这是2018年5月份媒体报道的一件事情，引起了全国的广泛关注——

湖北的一位老人，已经90岁了。他实际上跟子女住在另外一个城市，每次认证必须回到原来的居住地，而且认证的地方在三楼，还得找人帮他把轮椅抬上去。

2015年2月，李克强总理主持了国务院的常务会议，确定要利用互联网和大数据技术，“让信息多跑路，让群众少跑腿”。

2018年7月，人社部全面取消了社会保险待遇资格集中认证的方式。这样就急需更安全、更便利的远程身份认证技术，防止养老基金跑冒滴漏，同时也减少基层工作人员的工作负担。

2018年12月30日，央视新闻频道播出了一个新年特别节目，《创新跨越2018》，给观众们介绍了两项人工智能的技术走入生活、造福社会的故事。其中一个就是我们团队利用声纹技术在贵州开展老年人生存认证的试点工作，主要用到的就是声纹识别技术。

黔东南地区的这位老人已经102岁了，她住的地方交通不便，离认证的地方单程奔波要两小时。有了这项服务之后，她花几秒钟时间，足不出户就能完成认证了。

声纹，到底是什么？

大家对指纹、掌纹、人脸、虹膜很熟悉，它们都属于生物特征，其实声纹也是一种生物特征。我们说话的时候，从胸肺开始，然后声带振动，通过咽喉，然后到口腔、鼻腔发出声来，其中还会用到舌头、牙齿、嘴唇。

这些发音器官的形态、尺寸，其实大家都不一样，这也是声纹有唯一性的先天生理基础。另外说话有发声习惯，韵律、口音和说话速度也决定了语音中间的一些特定信息。这样，发声器官和发声过程结合起来，就决定了语音包含了能够表征和辨识特定说话人的一些语音特征——声纹。有时候，我们把基于语音特征所建立的计算机内部的模型也称为声纹。

识别前，计算机要先去了解声纹，这个过程叫做注册。一般来说，就是要采集用户的一段语音，然后提取其中的声纹特征，建立声纹模型，存储在数据库里。认证或识别的时候，同样需要采集一段语音（一般会比注册短很多），从这段语音里也去抽取声纹特征，然后从数据库里拿出声纹模型进行某种计算，最后得到识别结果。

怎么评价声纹识别系统的性能有多好？

其实有两个指标，一个是错误接受率（FAR，不是本人语音但是系统认可），另一个是错误拒绝率（FRR，是本人语音但系统没有通过）。

这两种错误率其实是相互矛盾的。对于同一个系统来讲，错误接受率低了，错误拒绝率就高，像跷跷板一样。所以我们要根据应用的具体情况，保证系统在合适的工作点上。例如，资金安全或枪支管理安全性要求非常高，此时就需要让错误接受率很低，错误拒绝率自然就会升高。

在科研中，我们为了方便比较两个系统的性能好坏，会让它们都工作在错误接受率和错误拒绝率相等的状态上（等错误率）。一般认为等错误率越低，系统性能越好。不过实际的应用中间，不能简单地以等错误率来比较两个系统的优劣。

声纹识别要录音，周围环境比较嘈杂，怎么办？

实际上，我们现在用的麦克风大多都是定向麦克风，采音有一定范围，在范围之外声音很难被录进去。而且，现在的智能手机很多不止一个麦克风，所谓的麦克风阵列技术能在录音的时候很好地去除噪音，最后语音的处理过程也含有一些噪声的处理功能。所以在一般情况下（如乘坐高铁、餐厅吃饭），噪声对系统识别性能是没有多大影响的。

感冒鼻塞，会不会影响系统识别性能？

实际上，感冒对说话习惯没什么影响，只是对生理状态有轻微的影响。所以总体来讲，对生物特征的影响比较小，一般不会造成影响。我们的经验表明，即使第一次认证没有通过，再说一次一般也就能通过了。

年龄增长带来生物特征变化，系统还能不能用？

这确实是一个问题，我们十年前也考虑过。为了验证，我们找了同一批人，每隔固定的时间去说同样的话，然后去找有没有共同的声纹特征。结果发现，就像老朋友多年不见，再一次见面还能认得 ——人有些声纹特征非常稳定。我们再结合这些特征进行改进，使得系统保持很高、很稳定的识别性能。

实际上，社保生存认证里用到的技术也不完全是声纹。

语音本身是一种声波，麦克风能够记录下每一个时刻声波振动的强度，其中包含了非常丰富的信息（男女性别、年龄、语言类型、方言口音等，当然还有内容）。此外，声纹还能听出情绪（高兴还是悲伤）。我们把声音的这种特点总结成四个字，“ 形简意丰 ”。

由此，我们设计了远程的声纹身份认证方案，在很多地方都有应用。具体来说，就是老人需要认证的时候，系统会首先生成一个随机密码（现在采用的是随机数字），然后麦克风录下声音，后台同时做声纹识别（判断是不是本人）和语音识别（判断确实是念了生成的这段文本）。

用这套系统，还会产生养老金冒领吗？有人模仿怎么办？计算机合成怎么办？

实际上，所谓的模仿秀一般是模仿人说话韵律和风格，没有办法去模仿生理结构。所以不管是研究还是应用，从来没有发生过声音模仿闯入系统的情形。至于计算机合成，目前的合成技术有一定针对性，往往是针对语音中一两种信息做的合成，能够检测出来。另外，不管用了计算机的什么技术，来源肯定是已经录制的数据，还要通过扬声器播放，其实就跟录音再播放有相同的过程，我们把这种现象称为录音重放。

所以，如果能够检测出录音重放，我们就能够堵住冒领漏洞。