摘要

心脑血管疾病是目前世界上最主要的死亡原因,预测心脑血管疾病发生的可能性是控制该疾病最有效的手段之一,然而预测的准确率需要大量数据进行模型训练来提高。本文对目前国内外主要的心脑血管数据集及数据集期刊关于国内各人口健康科学数据中心提供的数据服务,以及部分管理策略进行了总体介绍;详细阐述了 AI 技术与医疗领域结合的优势,以及医工智能的具体应用场景,并结合这些工作对心脑血管数据集的现状进行了分析。基于分析后得到的结论,可以助力后续相关工作的开展。

关键字

社会计算;社会智能;新型基础建设;范式转型

0 引言

心脑血管疾病是目前全球的头号死因,每年死于心脑血管疾病的人数都多于其他病因导致的死亡人数。目前已知大多数心脑血管疾病,可以通过诸如吸烟、不健康饮食、肥胖、缺乏身体活动和过量饮酒等危险因素而得到预防。

目前国内外均已创建了多种数据集期刊,搜集各领域内的有效数据进行规范化管理,使得数据的可用性大大增加,数据集期刊的创建也表明了基础数据对科学研究的重要性。为了发现心脑血管疾病背后隐藏的规律,找到可以有效预防及治疗的方法,统计心脑血管疾病相关的数据是十分必要的。而从各个来源获取大量数据才能保证最后得到的结论足够可靠、可信,但是这些数据存在格式多变、类别繁杂,以及难以完整覆盖和精确提炼关键信息等问题。为了更好地利用这些临床数据,需要在统计前对数据进行处理,获取到可用性高的心脑血管数据集。

AI 技术与科技医学领域结合已经成为当今社会的研究热点,AI 技术在医学数据集上的应用经常会得到意料之外的收获。传统医学行业的数据繁杂、人工工作量过于庞大,很难在海量数据中提取到可用信息,但是随着 AI 技术的蓬勃发展和医疗数据的逐年增长,两者相辅相成,越多的数据越能辅助 AI技术发挥更优秀的性能特点。

目前国内有很多公开的数据平台提供处理好的数据集,根据用户的使用范围和应用途径提供不同的数据集操作权限,很大程度上保障了数据集的合法有效使用。例如,我国的国家人口健康科学数据中心就是目前国内覆盖范围最广的科技健康数据平台。

1 心脑血管相关数据集现状

国家心血管中心 2019 年的统计数据显示,中国的心血管病患病率处于持续上升阶段,患病人数达到 3.3 亿。从图 1 展示的中国城乡居民主要疾病死亡率变化情况可以看出,2017 年心血管死亡率仍居所有疾病首位。

图 1 1990—2017 年中国城乡居民主要疾病死亡率变化情况

世界卫生组织已经针对心血管疾病做出了战略规划,致力于在全球范围内预防、管理和监测心血管疾病,降低心血管疾病发病率、患病率和死亡率。大量可用的数据集可以为此项战略计划提供坚实的数据基础,有利于早日训练出优秀的机器学习模型,助力实现该战略目标。下面对国内外现存的可用心脑血管数据集及数据集期刊进行详细介绍。

1.1 国际心脑血管数据集

2021 年 1 月 27 日,美国心脏协会(American Heart Association,AHA) 在 Circulation 杂志上发布了心脏病与卒中流行病统计数据的更新版本,与1990 年版本得到的结论大致相同,高 BMI、高空腹血糖、吸烟依次占据了 2019 年美国心血管伤残寿命损失年(YLD)损伤风险因子的前三位,其中吸烟从原来的第一位降到了第三位。瑞典的基础医疗心血管数据库(SPCCD)也被经常应用到科学研究中。对人工智能领域的心脑血管研究中,美国加州大学欧文分校(UCI)机器学习知识库提供了一个心血管数据集,由 303 个心脏病数据实例组成,每个数据实例都有 76 个属性。在西方,心血管疾病的急性致死性、动脉粥样硬化性表现正逐渐被慢性心脏疾病的表现所取代。毫无疑问,以心力衰竭为主的慢性心血管疾病代表了心血管疾病的未来。

据预测,心血管死亡仍然是未来首要死因,其下分别是癌症、呼吸系统疾病和神经系统疾病。鉴于在全球范围内,肥胖症和高血压的患者数量正在急剧增加,未来我们必须把注意力和精力集中在防治心血管疾病高危因素的扩大和增长上。

1.2 国内心脑血管数据集

国内在心脑血管相关数据集方面是有很大潜力的,随着国内医疗数据的逐年增长,心脑血管相关数据量也会逐年增加,只要应用合适的人工智能数据处理技术并结合当下社会环境特点,那么未来可用的数据集会越来越多。然而,虽然中国的基础数据量如此庞大,心脑血管医生的临床诊疗水平也在迅速提高,但就临床科研成果、临床数据应用而言,与世界先进水平还有一定差距。

在国家人口健康科学数据中心里,有中国医学科学院药物研究所提供的“心血管病合理用药数据库”,该数据集包含 381 条记录,包括药物类别、所属类别、药物名称、英文名称、中文别名、英文别名、制剂、规格、成分、化学结构、药理作用、药动学、适应症、用法用量、不良反应、相互作用、疗效评价等内容,可以为医务人员和患者的合理用药、安全用药提供帮助。还有国家药品监督管理局信息中心创建的“心血管系统用药数据库”,包含了4517 条数据记录,其集中的是心血管系统临床用药数据,包括病例情况(总例数、治疗组例数、对照组例数、平均年龄、疾病等)、用药情况(用药目的、用法用量、联合用药等)、 药品情况(药品名称、药品英文名称、商品名、剂型、规格等)、药物疗效(疗效评判标准、疗效及用药前后临床指征比较等)和药物不良反应情况,该数据集适用于药物研发、科研教育、医疗卫生和政府管理等方面。针对传统中医的由中国中医科学院中医药信息研究所提供的“中医防治心血管系统疾病数据库”,包含了26963条相关医疗数据,包括了血管性痴呆、高/低血压、动脉炎、二尖瓣狭窄等,以心脑血管病为中心,建立了流行病学信息、症状信息、诊疗信息表、治疗信息等相关内容,达到实现疾病相关数据的共享服务与数据挖掘的目的。以上所介绍的数据集均是公益免费的公开数据集,数据所覆盖的地理范围是全中国,2019 年发布于人口健康科学数据中心平台。

除了来源于国内的医疗数据,国家药品监督管理局信息中心还统计整理了美国每年正在进行临床试验阶段或准备上市的用于治疗心血管疾病的药物,并将其整理成数据集——“美国正在研发的心血管药物”2019 年发布在该平台上,其中包含药物名称、开发商、适应症、临床试验阶段、信息发布的时间等信息,适用于药物研发生产单位、大专院校、医疗卫生机构和政府管理等。

1.3 数据集期刊

数据是科学研究的基础,任何优秀的期刊论文都离不开可信数据集的支持,而数据是一点一滴积累而成的,好的数据管理体系可以为科学研究提供更多、更规范的数据集。Wiley 集团的副主席 Mike Davis 也曾表示:“目前,有一种活动愈来愈受重视——支撑关键发现的数据被更多的人访问,从而使数据的进一步分析和结果的解读工作得到促进。与此同时,不论是研究者创建和获取大型新数据集的能力,还是他们在更大范围的数据仓库中存储和检索数据的能力,都在迅速增强。”因此,为了响应这一重要发展趋势,Wiley 集团推出了新期刊Geoscience Data Journal(GDJ)。GDJ 于 2012 年 7月 16 日问世,是 Wiley 开放获取出版计划的一部分,仅以在线方式发行,目前是主要发表短篇的地球科学数据论文,这些论文则与存放在经认可的数据中心的数据集以及 DOI 关联。

在 GDJ 问世一年后,Nature 周刊发布通告,宣布将于 2014 年 5 月推出在线出版的开放获取型杂志Nature Scientific Data。其中一个新的重要文章类型是“数据描述”,旨在描述有科学价值的数据集,文章将被收录到一些重要的索引服务中,从而让作者愿意与别人分享他们的数据。在该数据期刊上发表的每篇文章都由描述实验关键性能的元数据和结果数据支持,这些元数据有助于数据挖掘,并将帮助科学家找到和重用存储在多个数据存储库的高质量数据。该期刊最初创立时重点关注生命、生物医学和环境科学等领域的数据,目前也有关于心脑血管方面的数据集,比如高血压随访管理系统数据库,以及包含 7 万张血管图像的多民族多国家数据集、JROAD 心脏健康结果数据库等。Nature Scientific Data 的组成架构,如图 2 所示。

图 2 Nature Scientific Data 组成架构

目前我国也有较为成熟的数据集期刊,中国科学院计算机网络信息中心主办的《中国科学数据 ( 中英文网络版 )》,2016 年出版了第一期。该期刊涵盖的数据集主要来自地理环境、海洋、植物学等领域,对于医疗尤其是心脑血管方向的数据集仍然较为匮乏,目前国内有关医疗的数据集仍然主要在国家人口健康科学数据中心上发布。

2 人工智能在医疗领域的应用

这里的人工智能具体是指 AI 技术将其数据资源、计算能力和算法模型都融入进医疗场景中,其应用带来了医疗领域诊疗模式、数据方式、前瞻性健康管理等多方面的变革。我们获取到北京安贞医院信息中心的数据,数据时间跨度是2008年1月至2019年9月,数据的主体是在北京安贞医院住院并在住院期间进行了冠状动脉造影术的患者,具体每条数据记录包括患者基本信息、就诊信息、病案首页、入院记录、出院记录、手术记录、系统内诊断、化验、检查、出院带药情况,共包含247462 条数据,其中男性 167935 人次、女性79527 人次。

2.1 数据处理和 AI 技术结合的重要性

数据标准化是临床病例分析研究的前提,标注加工数据是关键。AI 技术为医学研究提供了非常有力的工具,对大数据进行分析获得结果和结论,会使临床决策更合理、更科学。大数据时代,真实世界数据受到越来越多的关注,在 AI 技术支持下有可能发现新的发病机制、新的指标参数、新的诊疗方法等。临床工作每天都会产生大量数据,如何能在海量数据中有效提取大量可用数据,如何规范标注数据,如何加工多模态数据,如何脱敏数据清洗数据,最后形成有效可用的数据集,是临床病例研究的关键;临床病历数据量极为庞大,能将海量数据进行加工归类、标注提纯,形成有价值的大数据库,是临床数据真正转换为标准数据并用于研究的重要前提。

应用 AI 技术可以在很大程度上减轻医务人员压力,并提高数据质量。《应用于转化医学基础研究的临床数据整理流程设计》研究说明,数据整理工作是临床数据管理与应用过程中非常重要的环节。临床病历数据是由医务人员填写形成,培训医务人员使其按照规范填写是必要的,但是医学数据本身复杂,医疗医学术语和各种参数产生的数据浩瀚庞大,很难规范化标准化。以冠心病诊断名称为例,本次使用的数据中女性770个项目、男性865个项目,只有通过机器学习方法对数据进行分类,才有可能真正解决临床病例数据标准化的问题。

2.2 应用 AI 技术处理数据

应用 AI 技术在该上述数据集上进行处理,使用决策树算法、神经网络和遗传算法等机器学习技术对临床病例进行数据挖掘分析。人工智能算法可以检测到人眼无法看到的极其细微的细节,并以不同于人脑的方式来解释数据。使用深度学习神经网络在数据集上训练出一个预测模型,使用该模型对新数据进行判断,给出判断结果是否患有心血管疾病。有很多种方法用于建立上述的预测模型,比如多元回归模型、分类和回归树(CART)、朴素贝叶斯、袋装决策树算法、Ada Boost 和随机森林算法。其中随机森林算法是一种基于决策树的整体学习方法,它采用 bootstrap 的重采样技术从 N 个原始训练样本集中重复选择 b 个样本作为训练集,其余样本作为测试集。我们采用了按比例随机抽样的方法生成了一个新的训练样本集,从每个训练自助样本中随机选择 m 个特征集,然后根据自助样本集生成 B 棵决策树;分割决策树时,从 m 个特征中选择最优特征集,B 棵决策树构成了随机森林,新数据的分类结果(即最终的预测结果)由决策树中的投票数确定。图 3展示了李阳等在 2020 年针对不同模型训练算法,使用 AUC 来评估模型的预测能力。

图 3 不同训练算法的预测能力对比

机器学习在医疗保健和医学研究中的应用取得了显著进步。机器学习是一种数据分析方法,它无需事先明确的指示即可根据模式和推论自动建立模型。由于医疗健康信息的数量和复杂性不断增长,因此需要引入大数据分析。机器学习方法可以用于根据现有数据来开发预测模型,以产生高度准确的结果。我们将大量的病例数据通过 AI 技术进行处理,数据挖掘可以进一步探索疾病发生的规律,以及疾病的发生机制和影响因素;建立合理的疾病预测模型和诊断模型,也将有利于提升医学诊断分析过程中的科学性与合理性,从而不断提升临床诊断治疗水平,更好地保障大众健康。

2.3 医疗与 AI 技术结合应用简述

现在是人工智能时代,在各领域都能看到 AI 技术的身影。AI 技术在医学领域达到的高度并不是一蹴而就的,而是在积累更新中不断进步的。目前临床使用较多的人工智能主要有四种,一是智能影像;二是智能语音;三是医学机器人;四是临床智能决策。

智能影像和语音是基于图像和语音识别技术发展起来的,由于医学影像资料获取门槛较低且更为标准化,语音数据识别技术成熟,所以智能医学影像目前发展最为成熟。两者可以用作患者与医疗工作者的交互,也可以用作数据采集的来源。美国人Bohannon 于 2015 年在 Science 发表文章,首次报导了使用人机对话进行心理疾病的咨询和治疗取得成功,通过人工智能的深度学习代替心理医师,对心理障碍的患者进行疏导和治疗。由于许多患者顾虑自己的隐私而不愿意对医师敞开心扉,更愿意和机器对话,因此具有很大的应用价值。

医学机器人可以辅助医疗人员的医疗工作。临床医疗用机器人包括外科手术机器人和诊断与治疗机器人,可以进行精确的外科手术或诊断,如日本的 WAPRU-4 胸部肿瘤诊断机器人。美国科学家正在研发的一种手术机器人“达 ● 芬奇系统”,得到了美国食品和药物管理局认证。它拥有 4 只机械触手,在医生操纵下,“达 ● 芬奇系统”已经精确完成心脏瓣膜修复手术和癌变组织切除手术。美国国家航空和航天局计划在其水下实验室和航天飞机上进行医用机器人操作实验,届时,医生在地面上的电脑前就可以操纵水下和天外的手术。

临床智能决策已逐渐投入并较为广泛地使用在临床上。例如,人工智能在肿瘤疾病的治疗。据有关专家介绍,人工智能工具可利用机器学习技术分析这些数据,进而识别出肿瘤病变中一些重复出现的特征,总结出规律,再结合现有的癌症生物学等方面信息,预判肿瘤未来可能出现的变异,这样既保障广大患者的生命安全,也提高了医生的诊断效率。

由上述示例可知,医工智能是医疗与人工智能多维融合之后所形成的新学科,其范围已涉及医学与人工智能的方方面面。例如,人工智能的图形识别能力和深度学习能力已经在心电图分析中为临床医生和心电图诊断医生提供了初步诊断报告,准确率约85%,已经超越人类初学者。例如,2015 年起举办的CAMELYON16 挑战赛,比较 AI 和病理医生在检测乳腺癌患者淋巴结转移病理切片中转移灶的潜力,结果显示 AI 在诊断模拟中的表现优于病理医师。针对糖尿病的数据集,Breault 等利用 CART 分析方法对其进行分析后,找出了分类曲线和回归曲线,虽然准确率仅有 59%,但首次证实了 AI 技术在糖尿病诊断领域的潜在价值;后续又采用了 Relief 方法对患病因素初步分析后,再用朴素贝叶斯方法、IB1 法和 C45方法建立分类预测模型,使准确率达到了 79% 左右。2010 年,Purnami 等用修正条光滑向量机算法在一定参数下对糖尿病进行了准确率很高的诊断。2015 年,Abdul 等利用改进的 K-means 算法对以年和月为周期发病的疾病数据库进行分析,找到了预防和治疗的有利策略。人工智能还可以用于辅助护理,例如,我国台湾医院应用人工智能产生护理诊断,其建议的诊断与护士建议的诊断高达 87% 的一致;国外人工智能已普遍运用于日常生活护理中。

对于 AI 技术来说,其在大数据领域与运算速度上的先天优势可为医疗事业带来惊人的进步。例如,在最简单的化验分析阶段,除了样本采集(采血、采便、穿刺等)还需人工操作外,后续环节已经完全可以由 AI 技术代劳,样本分类、离心、推片、染色、划片等步骤比人类操作的效率高很多,即便是鉴定也可以通过将样本数据与大数据进行分析比对来进行判定。借助新技术对健康与疾病的大数据统计,实现医疗服务与资源的动态配置,新药研制过程中技术参与医药疗效与成本的控制,疾病的医工智能早期筛查 , 以及精准微创医疗机器人参与治疗,这一系列医疗情景变革都为未来医疗健康产业的发展描绘出了一幅全新图景。未来,医工智能将给医疗技术带来深刻的变化并发挥重要作用,是医学创新和改革的强大动力 , 改变医疗手段甚至医疗模式,推动医学发展 , 重塑医疗产业,同时也必将对部分医生的未来产生影响。

3 国家人口健康科学数据中心

我国的人口健康科学数据中心是一个国家科技资源共享的服务平台。人口健康科学数据是指人口健康领域通过基础研究、应用研究、试验开发等产生的原始性观察、观测数据、检查检测数据、监测数据、诊断治疗数据、试验数据、实验数据、调查和考察数据、统计数据按照某种需求系统加工的数据和相关的元数据,以及相关辅助科学数据和工具软件等。该平台涵盖多个领域的人口健康数据,覆盖生物学、临床医学和社会学等多个学科,包括由数十个单位承担的院校级和国家级项目,数据总量高达 113 TB,数据记录超万亿条,是健康数据资源十分丰富的共享平台。

为保证数据安全和数据的合理化使用,此平台处于保护期的项目不公开提供项目数据集;数据共享实行分级分类管理,根据国家相关数据政策、数据本身特点及数据提供者要求,部分开放数据需要申请并获批后方能获取。下面介绍平台上提供的四种类型的数据服务,以及发布在该平台上的中国青年人血压管理数据库。

3.1 定题服务

注册用户可以在该服务平台上申请课题,下载《定题服务申请表》并填写相应信息进行数据申请操作。数据申请前必须仔细阅读《国家人口健康科学数据中心数据申请说明》,需要补充完善用户信息和数据用途信息。人口健康平台管理办公室或者数据中心收到数据申请后,会根据数据的需求情况及时与用户联系,第一时间明确用户的需要,在所有需求确定之后,申请用户需要签署数据共享使用责任书,约束自己以合理形式使用共享数据。平台以协议约定的形式为用户提供数据服务。

3.2 数据配套工具服务

平 台 提 供 了 多 个 数 据 操 作 的 相 关 工 具,如 DYSON、Nutch、OntoFox、PUMCSearch、WEKA、NLTK、Oracle Data Mining、Echarts、TRS NetInsight、中国中医药学主题词表等。

Actian DataConnect 是一种数据处理工具,可帮助使用者快速、轻松地在内部、云端或混合环境中设计、部署和管理集成数据,并且不限制数据类型或数据量,帮助用户从多个端点经济高效地集成各种数据和应用程序。Echarts 是数据可视化领域最常用的工具之一。

该工具是一个纯 Javascript 的图表库,可以流畅运行在 PC 和移动设备上,兼容当前绝大部分浏览器,底层依赖轻量级 Canvas 类库 ZRender,提供直观、生动、可交互、可高度个性化定制的数据可视化图表。

HyperDex 是一个分布式且可搜索的键值存储系统,支持存储丰富的数据类型。该系统性能可以随节点数目线性扩展,吞吐和延时性能都明显优于现在最常见的 MonogDB,吞吐能力甚至强于 Redis。

在数据查询方面,提供了 UniEAP Report 工具进行支持。该工具提供集统计、查询、分析功能,通过灵活的制表工具、丰富的展现能力和强大的分析模型,有效降低统计分析应用的开发难度,缩短开发周期,帮助用户从海量的数据中及时准确地获取关键的信息。

其中的 DYSON 可用于数据采集、数据处理、数据分析、数据可视化、数据管理和数据检索,是一个功能强大的大数据融合、分析和可视化的工具平台,可以专业针对互联网数据抓取、处理、分析,挖掘,并灵活迅速地抓取网页上散乱分布信息,通过智能数据中心提供存储与计算,利用网页应用服务器和开放平台服务器进行大数据存储、管理及挖掘服务,平台服务器居中调节,实现大数据的智能化分析,准确挖掘所需数据。

3.3 主题数据服务

平台针对不同主题领域提供不同的主题服务,涵盖了基础医学、公共卫生、气象环境与健康专题服务、过敏体质与健康数据库、全国脑卒中筛查与防治数据库及协同工作平台服务、中药资源共享数据专题服务等多个主题服务。此外,根据实时热点事件会增添新的主题服务,比如在新冠肺炎爆发后,新增了“新型冠状病毒肺炎疫情专题”的主题服务。

每个主题服务下都包含丰富的相关数据,并将大数据反映出的意义影响可视化在平台上,使用者可以更加方便、直观地了解到目前该领域主题下的最新进展情况。用户可以根据具体需求找到相应的主题服务,每个主题服务下都提供了详细功能,比如在“新型冠状病毒肺炎疫情专题”中,提供了查询国内外疫情的功能、疫情分布地图、疫情变化趋势折线图、实时新闻播报等。

3.4 API 服务

人口健康科学数据存储(Population Health Data Archive,PHDA)提供了科学数据的 API 查询接口,支持第三方利用该接口将其他来源数据的科学数据集元数据集成到其他服务平台检索服务中。该查询接口提供了四个方法,方法及参数说明以表格的形式进行了详细介绍说明,在最后介绍了该接口返回查询结果的数据集详细信息。

3.5 中国青年人生命体质信息数据库

该数据库由北京邮电大学和空军总医院合作建立,调查了中国 30 个省区 15~25 岁健康男性外周血压及中心血压常数、一般生理指标数据库和血液样本库。血压数据集中包括统计信息表、人口统计表、一般生理指标表、检验指标表、高血压指标表、非数值指标表、生物标本库表等关系表,是迄今最大的中国青年人生命信息数据库。该数据库的目标是,制定外周血压及无创中心动脉压规范化测量标准;宣传外周血压和中心动脉压规范测量和血压管理常识;修订特殊职业体格检查标准;为其他科学研究提供基础数据和参数。数据库系统页面如图 4 所示。

图 4 中国青年人生命体质信息数据库系统页面

4 结束语

本文从国家人口健康科学数据中心的服务和管理策略出发,介绍了目前国内的医疗科学数据资源现状,调查对比了国内外对于心脑血管领域的数据集情况后,发现我国目前的心脑血管科学数据集还存在着建设标准不统一和各自为政、数据交换困难、信息孤岛现象严重等问题,与世界先进水平还有差距。目前心血管病死亡占城乡居民总死亡原因的首位,农村为 45.91%,城市为 43.56%。心血管病给居民和社会带来的经济负担日渐加重,已成为重大的公共卫生问题。为了减少与先进水平的差距,尽快治愈更多病人,充分利用信息化技术和 AI 技术,对这些临床医学数据和其他相关记录数据进行及时有效地采集、管理、使用和共享非常必要。为此我国应积极推动医疗信息化发展,推动建立国家级数据采集与共享平台,助力国内医疗卫生主管部门和行业学会建立规范化、标准化和结构化的心脑血管临床数据库,帮助心脑血管医生和心脑血管诊疗机构用最有效、最快速的办法提升诊疗和科研水平,使实惠的医疗保健服务能惠及更为广泛的人群。

(参考文献略)

来源: 中国人工智能学会通讯