看到一个比较有意思的问题:如果把一个人的 DNA 序列作为输入,正面照片作为输出,丢到深度神经网络里面学习,可行吗?

当然可行了,而且已经有人在做了。就比如大家都听过的“基因识别人”,今天来和大家聊聊。

01,基因识别人来了吗?

以前我介绍过的生物学大神,一个毁誉参半的人J.Craig Venter就干过这事情。

这位基因测序教父级人物发表了一篇人脸预测软件的成果。他针对不同年龄和种族背景的人全基因组进行了测序,然后把这些遗传数据输入到计算机里。

研究群体的年龄组成,可以说覆盖了大部分年龄段。

研究对象的族群成分组成,基本涵盖了主流的族群成分。比如:

非裔Ancestry components are African (AFR);

本土美国人Native American (AMR);

中亚裔 Central South Asian (CSA);

东亚裔 East Asian (EAS);

欧洲人European (EUR)

基因测序数据组成Inferred genomic ancestry proportions for each study participant.

基因识别人,这一伟大的创新,即将启动了...

02,他是如何操作的?

接下来,在把个人的外观信息输入进去,比如三维面部结构、语音特征、生物学年龄、身高、体重、BMI指数、眼睛颜色、皮肤颜色、秃发或头发颜色等特征【1】

接下来就是通过新开发的算法来训练了,也就是大家熟悉的机器学习。

结果如何,他成功了吗?

03,结果如何呢?

根据他们的遗传数据,以及参与者的高质量3D照片,他们的算法可以做出非常成功地预测人的外观了。下图是基因预测和面部三维结构的像素变化图

模型训练

直接来个结果吧:下图是基因预测的结果,左边是个人真实面孔,右面是基因预测的结果

比如,他们从一个公共数据库Human Longevity(HLI)中随机选出一组人群(10个人)进行识别,其准确率可以达到74%,这个数字已经超过了绝大多数刑事侦查的比例了。

要知道,曾经做过一个研究,就是让目击者描述犯罪分子的长相,结果准确率惨不忍睹。比如我随手找了一个研究【2】

目的验证通过目击者的描述,刻画犯罪嫌疑人模拟像及计算机人像组合技术和准确性。方法分别将15名男性和女性照片的发型、下巴、眼睛等五官部位单独取下,并确定其中1人为辨别目标(对象),由786名目击者进行辨认。结果目击者辨别面部特征的总体准确率为17.4%。

准确率才17.4%,这基本上就是没啥意义了。可见基因预测的牛叉。不仅仅是脸,还有其他因素,比如年龄

比如:眼睛的颜色

比如:身高,体重,BMI

比如:肤色

他还给出了这个模型的预测准确性,尽管不同指标的准确度有差异,但是总体还是蛮高的

这可是真正的滴血认人了。

要知道,大家一定很熟悉,古代人很流行的滴血认亲,当然,现代科学已经否定了这一点,因为滴血认亲有很大的失败率,还可以通过技术作假,所以可怜的不被认可的古代人啊。

04,在实际生活中有什么用?

大家一定很熟悉通过犯罪分子的血液痕迹DNA来找犯罪分子,不过,其实这个也挺难,因为你一定要找到比对对象,否则,你即使获得了犯罪分子的DNA,也只能傻乎乎的等待将来某一天,你很幸运地再一次找到了犯罪分子的DNA,然后二者联网进行比较。如果你从此无法采集到犯罪分子的DNA,那你永远也不可能通过基因证据找到犯罪分子了。

但是这个采取DNA直接来预测人的外观,可就高大上多了,也直接导致一个核心问题:隐私。

所以当时这篇文章一发出来就引发了很大的争议。有的觉得文章是错的,有的觉得是侵犯了隐私。但是无论如何,这是个巨大的发现。

未来,随着样本越来越多,训练越来越充分,直接通过DNA预测人,可能性很大。

【1】Lippert, Christoph, et al. "Identification of individuals by trait prediction using whole-genome sequencing data."Proceedings of the National Academy of Sciences114.38 (2017): 10166-10171.

【2】目击者辨别相貌特征能力的研究[J]. 刑事技术, 2001(05):20-27.

来源: 李雷