摘 要

本文围绕多源异构科技大数据的汇聚融合和演化分析难题,分析科技大数据汇聚融合的具体需求,理顺并优化科技大数据汇聚融合业务流程。在此基础上,设计一套面向开放协同的科技大数据汇聚融合与演化分析平台技术架构。最后,重点介绍该平台所涉及的关键技术,包括多源异构科技大数据采集和清洗技术、科技大数据汇聚融合机制、科技大数据分布式存储、科技大数据实体智能匹配、科技大数据检索服务接口、基于区块链的科技大数据交换与可信确权等。该平台的实现能够为多源异构科技大数据的汇聚、融合、演化和应用提供坚实的理论基础与支撑。

关键字

科技大数据;汇聚融合;开放协同;演化分析

0 绪 论

科技大数据不同于传统论文数据,也不同于一般意义上的网络及行业大数据,数据内容包括科技成果数据、科技活动数据,以及互联网自媒体科技资讯数据。科技成果数据包括各学科内记录形成的数据、资料、文献、报告、网络科技报道等承载知识的数据;科技活动数据包括科技实体数据与知识关系数据,其中科技实体数据包括科技项目、学术会议、科技团队、科技组织、科技人才、科技机构、科技奖项、科技主题、科技概念、研究设备、研究模型、研究方法等,知识关系数据包括语义关系及计量关系等;互联网自媒体科技资讯数据,特别是微信数据,每天发布的科技信息及时、权威及互动性较好。

科技大数据理论与技术研究是一项顺应目前科技行业信息化技术水平发展、服务政府职能改革的科学研究工作,主要目标是强化科技与经济运行监测分析,实现科技管理者、参与创新创业的科研机构、企业和个人的全方位、一站式的云管理和服务平台,实现科技资源、科技数据、科技服务、科技管理的互联互通和开放共享,推进科技数据共享和业务协同,以信息化提升数据化管理与服务能力,及时准确掌握科技发展宏观和微观动态,为科技政策的制定提供依据。

多源异构科技大数据融合技术,是一种针对多个数据来源的大规模科技类数据及其资源进行数据汇聚、过滤、融合,以及知识提取的一系列方法的统称。多源异构科技大数据的有效融合,不仅能够满足科技企业、事业单位、科研院校,以及广大科研人员和公众对科技数据的检索、浏览,并且满足了他们对科技数据内容的丰富度、准确性、实时性等方面的要求。加快科技服务业发展,是推动科技创新和科技成果转化、促进科技经济深度融合的客观要求,对于深入实施创新驱动发展战略,推动经济提质增效升级具有重要意义。

本文基于国家重点研发项目“科技大数据理论与技术”,深入分析当前多源异构科技大数据的汇聚融合需求及难点,结合当前主要科技大数据资源和数据存储机构,理顺并优化科技大数据汇聚融合业务流程。进一步的,基于分布式计算、云存储、大数据、人工智能等前沿支撑技术,设计一套面向开放协同的科技大数据汇聚融合与演化分析平台技术架构,重点介绍该平台所涉及的关键技术。

1 科技大数据汇聚融合需求

我国科技服务业仍处于发展初期,存在科技资源共享困难、服务模式单一等问题,具体体现在科技数据孤岛化、科技知识隐性化、科技价值断链化、科技服务盲目化等具体问题。《国务院关于印发促进大数据发展行动纲要的通知》中指出大数据已成为推动经济转型发展的新动力,这也给科技大数据服务业的发展带来新契机。开放共享经济环境下,借助于云计算技术、大数据和人工智能等技术的信息精准定位与科技数据挖掘,探索多源异构科技大数据的采集、汇聚、融合,有利于实时跟踪各项科技数据的生命周期和应用场景,进而促进科技向生产力的快速转化。本文深入调研国内各大科研院校、科技企事业单位和科研人员对科技大数据的使用现状,分析他们对多源异构科技大数据的汇聚融合要求和数据使用需求。

1.1 多源科技大数据的高效汇聚

不同科技企业、事业及相关单位需要从多个不同来源的科技数据提供商或者网站获取各类科技数据和资源,例如中科院科技资源共享平台、科学数据库平台、知乎、新浪科技等;同时,国内各个院校及科研机构需要从多个不同来源的科技数据库及文献数据库中获取各类文献和科技信息,例如中国知网、百度文库等网站。因此,广大科技大数据用户希望通过单一的科技大数据检索平台,以规范化的、统一的服务接口方式,调用不同来源的科技大数据,实现不同数据源之间的信息互补,形成实时全面的科技大数据。

1.2 异构科技大数据的有机融合

由于各个数据源存在各种不同结构、不同存储介质、不同格式的科技大数据,如何将这些异构的科技大数据进行有机融合,是当前科技大数据处理领域的研究重点。例如,非结构化科技数据存在实体识别缺失问题,导致其与结构化科技数据在融合过程中存在语义鸿沟,无法进行实体匹配;又如,以文本格式存储的科技数据和以视频格式存储的科技数据无法实时的转换和检索。因此,广大科技大数据用户希望在多源科技大数据汇聚之后,对各数据源的异构科技数据进行元数据提取、数据格式标准化、科技数据去重和过滤等一系列操作,最终得到统一规范的、无歧义、无冗余的规模化科技大数据。

1.3 科技大数据的演化分析

每一条科技数据从产生到发布、转发、引用、转化、更新,以及消失的过程被称为该科技数据的整个生命周期。数据生产者、使用者和管理者都希望能够有效地对每一条科技数据的生命周期进行有效跟踪,以可视化方式跟踪及分析其演化过程。科技大数据的演化分析能够清晰地跟踪和量化分析各类科技数据在各个生命周期环节中的情况,从而为相应的科技数据管理方案和各级决策提供科技依据。

2 平台业务流程分析

在分析多源异构科技大数据的汇聚融合和演化分析难题及其需求的基础上,结合当前可用资源,设计出适合于当前实际应用场景的科技大数据汇聚融合与演化分析业务流程,如图 1 所示。

首先,各个科技数据用户(国内各个科技企事业单位、各个科研机构和院校、科研人员以及公众),通过科技大数据汇聚融合与演化分析平台提供的规范化数据检索接口,分别设置相应的检索范围和数据处理规则、数据演化及展示方式,形成检索条件,传入相应的数据检索接口。接着,平台接收各科技数据用户的数据检索请求,分别调用相应数据源所提供的数据访问接口,并分别到目标数据库或者网络中执行数据检索和数据获取行为。在获取到各个数据来源的科技数据之后,平台将使用语义关联、多粒度数据映射、科技数据实体识别与匹配、科技数据清洗等大数据处理技术,对检索结果进行有效处理。最后,根据用户需求,执行相应的数据展示、数据传输、以及数据演化分析等功能,从而实现各科技数据用户对多源异构科技大数据的实时检索、高效汇聚和有机融合。与其同时,平台将以云计算分布式存储及开发框架为支撑,实现跨领域跨学科的科技大数据自动监测与采集。通过基于时空深度特征的实体识别和匹配,完成科技大数据的动态演化分析,实现从科技大数据记录层、知一识实体层到知识关系层的智能数据融合的生命周期管理机制。

3 平台技术架构

根据需求分析和业务流程设计结果,本文提出一套面向开放存取的科技大数据汇聚融合与演化平台设计方案。该平台的技术架构,如图 2 所示。

平台能够根据充分利用云计算系统和分布式存储技术,形成协调统一的科技大数据分布式存储与处理模式,以高效存储科技文献、科技资源、政策标准和其他科技大数据。在此基础上,平台使用数据挖掘、智能匹配、时空关联、演化分析等科技大数据分析技术,对分布式存储的科技大数据进行高效分布式并行分析,以获取满足各科技数据用户需求的数据处理功能。同时,平台能够基于神经网络学习模型和特征表示学习等技术,对多源异域构科技大数据进行有机融合,并且实现跨领域、跨学科的科技大数据自动监测与采集。进一步的,平台利用在线知识图谱中所蕴含的丰富结构化文本与链接信息,建立多源异构、碎片化数据之间的语义关联和多粒度层次之间的语义映射,顺利完成科技大数据的实体识别和匹配。在此基础上,该平台实现了以多粒度知识服务为核心的大数据处理架构与引擎,实现从元数据记录层、知识实体层和知识关系层的智能数据融合与演化分析。最后,平台能够提供跨系统、跨业务、跨场景的大数据共享交换机制技术,构建支持数据交换、可信确权与追踪保护的科技大数据资源融合系统平台,实现科技大数据的生命周期管理。

4 平台核心技术

科技大数据汇聚融合与演化分析平台的实现,主要依赖于云计算、大数据和各类人工智能技术,具体而言,包括面向科技大数据的分布式存储技术、基于人机融合的数据汇聚与融合构建技术、面向科技大数据的智能化实体识别与匹配技术、科技大数据的汇聚融合和演化分析技术、科技大数据的可信确权和生命周期管理技术等。平台所用的核心技术和它们之间的联系,如图 3 所示。

4.1 面向科技大数据的分布式存储技术

平台利用科技大数据的云计算分布式存储框架构建方法,实现分布式存储中的一致性、可用性、分区容错性等应用需求。采用云计算系统平台分布式管理方法,对采集到的海量多源异构科技资源数据进行分布式存储。同时,平台基于开放协同的科技大数据服务平台架构,为数据汇聚融合、实体识别及多维度数据分析奠定基础。

4.2 人机融合的数据汇聚与融合构建技术

平台采用多源异构数据采集和清洗、科技资源数据结构分类、高效流转和安全可靠交换机制,以及科技服务规则设计与科技服务构件加工技术。并且使用不同的深度学习和机器学习等人工智能模型,以完成汇聚的科技大数据进行对齐融合技术、基于特征表示学习的人机融合数据处理方法。最后,平台采用动态化的数据与服务需求管理、数据分布多样化和数据流动关联化的科技大数据汇聚融合方法,提升科技大数据的智能汇聚融合效率。

4.3 面向科技大数据的实体识别与匹配

平台采用科技大数据实体识别技术,形成科技大数据在多维度上的统一描述。建立以模糊度为目标变量的多元逻辑回归模型,构建人工标注数据学习的模糊度,该技术能够有效解决异构科技大数据之间的语义映射的模糊性问题。同时,平台采用科技大数据实体的智能匹配技术,物化大数据摘要到粒度层次的映射,确保科技大数据多粒度映射的语义敏感性。

4.4 科技大数据的汇聚融合与演化分析

平台采用科技大数据智能探测与汇聚融合技术,实现实时自动监测、自动采集与多类型数据智能汇聚。同时,制定了科技大数据外部特征与内容语义特征关联机制,形成一套对多源异构知识进行解析、筛选的有机关联机制,分别从元数据记录层、知识实体层和知识关系层进行全面的智能化数据融合。最后,平台采用符合科技数据的生命周期采集和跟踪方法,实现动态、实时地刻画数据的演进变化过程。

4.5 科技大数据的数据交换、可信确权、追踪保护与生命周期管理

平台采用跨平台、跨系统、跨业务、跨场景的大数据共享交换机制技术,实现多源异构业务数据的无缝接入等。同时,平台运用数据可信确权与追踪保护和科技大数据的生命周期划分与管理方法,实现跨时空跨系统跨平台数据的动态生命周期划分、生命周期的数据侵权监控与实时侵权取证。

5 结束语

本文围绕科技大数据价值评估的难题,综合考虑从数据、信息、知识的集层式增值建模方法,形成科技大数据价值链的全过程刻画,构建基于特征选择和人机协同的第三方价值评估指标体系,通过构建交易机制与盈利模式、定价策略与价值分摊模型,对科技大数据交易与服务进行协同设计,为科技大数据价值链构建和探索发展商业服务模式提供坚实的理论基础与支撑。介绍了符合科技大数据的生命周期采集和跟踪方法,并构建演化分析模型,实现动态、实时地刻画数据的演进变化过程;提出科技大数据的安全可信保护策略,以及跨领域大数据交互管控方法和云安全科技大数据服务确权追踪方法,实现科技服务实时可检测,保证大数据边界访问控制与安全可控,以及科技大数据跨领域服务的多级封装,实现数据的安全统一验证,最终形成支持数据交换、可信确权与追踪保护的科技大数据服务平台。

来源: 《中国人工智能学会通讯》