简介

数据库是指长期存储在计算机内有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述和存储,具有较小的冗余度、较高的数据独立性和易扩展性,并可为各种用户共享。医学资料库是指医疗机构对各种医疗数据的积累贮存系统。医疗数据库纪录着个人基本数据及病历数据,具有极高的研究价值,可作为公共卫生与临床研究的素材,对整个社会有许多正面的贡献。由于医疗数据库纪录着个人基本数据及病历数据, 数据敏感度高,若数据库外泄,因个人隐私受侵犯所带来的损失也会提高。

基本结构医学资料库即医疗数据库,基本结构分三个层次,反映了观察数据库的三种不同角度。

以内模式为框架所组成的数据库叫做物理数据库;以概念模式为框架所组成的数据叫概念数据库;以外模式为框架所组成的数据库叫用户数据库。

⑴ 物理数据层。

它是数据库的最内层,是物理存贮设备上实际存储的数据的集合。这些数据是原始数据,是用户加工的对象,由内部模式描述的指令操作处理的位串、字符和字组成。

⑵ 概念数据层。

它是数据库的中间一层,是数据库的整体逻辑表示。指出了每个数据的逻辑定义及数据间的逻辑联系,是存贮记录的集合。它所涉及的是数据库所有对象的逻辑关系,而不是它们的物理情况,是数据库管理员概念下的数据库。

⑶ 用户数据层。

它是用户所看到和使用的数据库,表示了一个或一些特定用户使用的数据集合,即逻辑记录的集合。

数据库不同层次之间的联系是通过映射进行转换的。

医疗数据保护方法从技术角度而言,大数据的隐私保护主要还是依赖于传统数据隐私保护的一些密码学技术,而医疗数据因为其特殊性对隐私保护技术的要求也有别与其它的系统。针对这些主要将需要保护的内容聚焦于以下几点,并结合目前已有的技术手段,进行讨论:

标识隐私匿名保护在患者诊疗档案中,往往会以患者的姓名、身份证号码等作为患者的唯一标识,但是这些信息本身就应该是隐私保护的内容,所以需要在不影响信息准性的前提情况下对这些信息进行匿名保护。童云海等提出了一种隐私保护数据发布中身份保持的匿名方法,在数据发布中先删除身份标识准备,然后对准标识数据进行处理,在保持隐私的同时进一步提高了信息有效性,并采用概化和有损连接两种实现方式。可以看出标识匿名隐私保护,主要都是采取在保证数据有效性的前提下损失一些数据属性,来保证数据的安全性,目前大部分的技术均采用了这种方式。但是在目前患者电子诊疗信息交互的过程中,信息的损失可能会影响正常流程的运行。在很难同时兼顾可用性与安全性的前提下,需要一种针对医院及区域性平台运作特点的算法,来找到可用与安全的折中点。

医疗数据的分级保护制度以一份完整的诊疗档案为例,其构成应当包含了各种信息,如患者基本信息、诊断信息、医嘱信息、检验检查信息、药品信息、收费信息、主治医生信息等等。这些信息在隐私保护中都有着不同的权重,如果一概而论对所有信息都采用高级别的保护手段,会影响实际运作的效率,同时也是对资源的浪费。但如果只对核心信息进行保护,也会造成隐形泄露的问题。如只对检验报告进行保护,那么检验数据的泄露可以也容易的推导出检验报告的结果。所以需要建立一套数据的分级制度,对于不同级别的信息采用不同的保护措施,但由于涉及不同的系统和运作方式,制定一套完善分级制度有相当的难度,同时还涉及到了以下的访问权限的控制1。

基于访问控制的隐私保护医疗系统中隐私保护的难点还在于参与的人员节点多,导致了潜在的泄露点也多。访问控制技术可以对不同的人员设置不同的权限来限制其访问的内容,这其实就包括了数据分级的问题。如财务部门的人员应该只能访问相关的收费信息而不能访问医生的诊断信息。而目前大部分的访问控制技术均是基于角色的访问控制,更够很好的控制角色能够访问的内容以及其相应的操作。但是规则的设置与权限的分级的实现手段比较复杂,无法通过统一的规则设置来进行统一的授权,许多情况下需要对角色的特殊情况进行单独设置,也不便与进行整体的管理和调整。需要对规则引进行进一步的研究在适应医疗领域实际应用的需要。

通过以上对于不同问题不同技术手段的分析可以看出,在医疗大数据领域技术手段还不能很好的满足实际应用的需求。同时需要建立一套适用于医疗大数据领域的完整隐私保护体系,在医疗数据的存储环节、访问环节、应用环节等形成系统性的保护。而在构建隐私保护体系时,除了相关技术,更应用完善制度保障。

一些现代医学资源数据库国际生物医学文献文摘数据库(Medline):该数据库由美国国家医学图书馆编辑,收录了1966年至今收录的全球3700多种重要国际医学期刊近 1000万篇文献摘要,全面准确地反映了当代国际生物医学水平,在全球医学界有着重要影响,几乎所有医药科研单位、医院,大专院校图书馆都有收藏, 是医学界较权威的数据库。该数据库专业水平较高, 采用国际流行的检索方式检索,虽然文献多,信息 量大,但依然检索快,是国内医学界了解国际医学 水平的主要窗口之一。

Lippincott Williams & Wilkins电子期刊全文数据库(LWW): 该数据库的提供者是世界享有盛誉的医学文献出版商,该公司出版的期刊大多为医 学核心期刊,其临床医学及护理学期刊尤为特出。 该数据库收录了235种医学期刊,其中154种为核 心刊(90%为英、美核心刊),约150种刊被ISI收录, 且影响因子较高。回溯期至1993年。

国际医学期刊全文数据库:该数据库收录了 1994年以来国际上著名的医学刊物355余种全文,涉及医学各个学科,大部分是国际医学学会各个分 会的年鉴、年报刊物,能比较全面地概括了国际生 物医学界的研究动态,及时准确地反映国际医学研 究的水平,是国内医学界了解国外医学水平的主要 信息源。所有文献均是英文,并附带有图像、数据 和表格。

临床医学事实数据库(micro medex):该数据库提供实时且正确的药物信息、疾病信息、毒物信 息、传统医学信息,以及对患者的卫生教育信息等, 广受全球90多个国家,9000多个医疗组织机构医疗 人员的信赖。

OVID医学全文期刊数据库(journals@ovid full Text): 该数据库由世界知名的医学数据库提供商——美国OVID TeChnologieS公司提供。OVID公司目前提供MEDLINE等二次文献数据库,并可链接其自身拥有的和多家出版社的全文电子期刊: 60多个出版商出版的生物医学电子期刊1000余种, 其中回溯年份可至1993年,被SCI收录的期刊超过 300种; 近40个出版商出版发行的160多种以临床医学为主的电子图书。OVID的Journals@ovid数据库目前共有1000种医学电子期刊全文,分为4个医 学核心期刊专集、2个护理专集、1个精神卫生专集、1 个心脏病学专集及 Lippincott Williams & Wilkins(LWW)出版商的209种医学期刊专集。

PubMed数据库: 该数据库是美国国家医学图书馆(NLM)所属的国家生物技术信息中心(NCBI)开发的Internet生物医学信息检索系统,位于美国国立卫生研究院(NIH)的平台上。该数据库可以在MEDLINE和Pre-MEDLINE的900万条文献中进行检索2。

荷兰医学文摘数据库(EMBase): 该数据库是由国际著名出版公司Elsevier Science编辑出版的大型生物医学及药学文献书目数据库。EMBase收录 了1980年以来世界70多个国家(以欧美为主)出版的 5000多种期刊的医药文献题录和文摘,其中,药物 信息的比重较大。累计文献量达610万篇,并以每年42万篇的速度递增,65%以上的文献有英文摘要。 该库报道文献的速度较快,涉及的主要学科领域有: 生物学、药学、医学及心理学等。数据库更新周期为月更新。