图文详情

近日，饶毅连发两篇文章，支持公开和共享中国人基因序列，称这样做有助于解决国内疾病。看到评论区说什么的都有，感觉有人在搞混水，今天我就来和大家聊聊有关我国目前基因信息公开状况，以正视听。

01，中国人是有公开数据的

看到有人污蔑中国闭关锁国没公开过数据，大谬！

无论是NCBI、ENSEMBL还是1000GENOME这些大型公开数据库，都有中国人的基因信息样本的。事实上，作为一个参与了人类基因组计划的六个国家之一，中国怎么可能没公开过数据呢？

比如1000GENOME里，按照族群（population），大概有210个族群，中国人就贡献了50个左右，相当于数据库里四分之一的族群种类样本是中国人。

02，各国对公开数据是有限制的

我国事实上对基因数据管理是非常晚的，在这之前，那数据传的，各种中外合作就是任君采撷，上世纪有过国外大量采集少数民族样本的事情。甚至在我们出台政策之后，依然有公司向国外传递中国人遗传信息，甚至采用作假的办法（比如说是动物样本，其实是人样本），why？

而国际上要规范很多，我曾经想用一个美国特定人群数据，但是无法获取。事实上，很多国外的数据提供的也是处理过的数据，这一点也恼火！（这一点，非生物信息学的人，哪怕是做生物医学相关的，都不一定知道，他们以为看到变异就行了，其实更原始的数据才有意义，但是不好意思，很多时候你拿不到）。

03，我国是在建立自己的生物信息学数据库

正是因为各国都在各自为政，自己搞自己的数据，导致想使用这些数据很多时候都没办法，所以我国也建立自己的数据库。

比如前段时间我们申请了一个项目，里面的硬性要求就是数据必须上传到国家这个数据库里。

反正现在全世界都在朝着各自搞事情的方向努力，那大家就都别指责谁了。

04，数据是要钱的

以现在的NGS价格，illumina大概40一个G，华大大概20多一个G，加上建库之类的费用，一个人按照30x的话，基本上一个基因组大概是3000左右了。

这样才能完成最基础的数据生成，但是接下来数据处理还需要服务器运行、人员处理以及管理。所以这东西，不是说你动动嘴就行。

事实上，说句不好听点，很多课题组要不是国家要求上传数据，大家更愿意数据在自己手上。

05，饶毅的问题，完全可以国内自己解决，出钱就行

国内并没有禁止对基因进行研究啊，事实上，饶毅要是对某个遗传病有兴趣，他完全可以去针对性的去采样，然后自己花钱测序，最后完成对该遗传病的解读。

目前大家都这么干的。想白嫖别人课题组花了好多钱做的内容，不现实啊（如果愿意合作，相信你要的数据都有）。而且，由于不同人采样标准、收集标准都不大相同，事实上用他人数据的时候都是个问题。

不过随着我国对遗传资源的规范化，以后这些数据都会上传到国家数据库里。

06，说点基因组的小常识

基因组序列，包含全部信息，这种数据其实在所有数据库都比较少。

因为基因组至少包括了CNV、SNV、SV这些数据，更别提还有一些很特殊的存在，随着大家对基因组的了解，过去很多没发现的信息现在都成了新的宝贝。

目前很多数据库提供的是在基因组数据中提取的一部分数据，比如所谓的犹太人基因组数据，其实不是犹太人基因组全数据（基因全序列），而是采用array法获取的一些位点。大概相当于，一本字典 vs 3000常用字的差别。

下图是一代测序的一个示例。最完整的数据是那18个碱基，但是很多数据库只提供下面的那个红色标记的A。

当然，在基因组基础上的转录组、蛋白组之类的因为和组织、细胞、环境、行为相关，所以反而很多。

最后，机遇和风险同在。关于这件事，说没风险那是没常识，过度强调风险又谨慎过度了。

但是这东西，大家都意识到是非常宝贵的。当年HGP完成，有人曾经想把人类基因组申请专利，然后被驳回了。

中国人该向全世界公布自己的基因信息吗？