探索科学奥秘,促进科学数据共享

科学数据是国家科技创新和发展的基础性战略资源,增强数据资源利用至关重要。

8月9日,记者从中科院青藏高原所获悉,我国研究人员发表评论文章分析我国科学数据共享的现状,总结了我国在科学数据共享方面取得的成功经验,并呼吁对数据共享给予政策支持,对数据贡献者予以激励,从而实现更广泛的数据共享。相关研究成果在线发表于《自然·地球科学》杂志。

数据流动和信息共享对人类科技进步至关重要,数据中心是促进科学数据开放共享的重要载体。近年来,我国在促进科学数据共享方面出台了一系列举措。2018年,国务院办公厅印发的《科学数据管理办法》中指出,数据开放将是受政府预算资金资助研究项目的基本原则;2019年,国家青藏高原科学数据中心、国家人口健康科学数据中心、国家天文科学数据中心等第一批20个国家数据中心上线。

然而,最近的一项超过2000名我国研究学者参与的调查显示,我国的研究学者虽有分享研究数据的意愿,但也担心数据的误用及版权和许可受到侵犯。在我国,与同事和合作者私下共享数据的情况更为普遍,而不是更广泛的公开共享。“可见,要增加新建科学数据中心的影响力,并在我国研究人员中更为广泛地树立数据共享的信心,仍需大量工作。”中国科学院青藏高原研究所研究员、国家青藏高原科学数据中心主任李新坦言。

为了推动我国科学数据广泛共享,国家自然科学基金委在地学领域的两个重大研究计划——“中国西部环境与生态科学研究”和“黑河流域生态—水文过程集成研究”中提出了新要求:受资助项目得到的科学数据都必须在国家自然科学基金委地球科学数据中心公开共享;在项目的年度评估、中期考核及最终评估环节,数据提交共享和数据质量都是被评定的内容。

同时,这项机制还明确了数据共享者的贡献,并给予他们激励。迄今为止,已有2500多篇科学论文引用了这些数据集。“这两个重大研究计划强调数据共享的强制性,以及对数据共享者的肯定和对知识产权的尊重。”李新说。

更令人欣慰的是,中国科学院近期发起了地球大数据科学工程专项,该项目旨在构建一个地球科学数据的信息基础设施。通过收集来自专项的各类数据,地球大数据平台目前已存储超过5PB的数据,其下载已经超过50万次。

基于此,专家呼吁,我国还要在政策、管理、技术和国际化等方面采取更为具体的行动,以更大的力度和措施提高科学家共享数据的意愿,提高我国科学数据中心的影响力,推动更为广泛的科学数据共享。

李新表示,在政策方面,要进一步明确敏感数据及其使用界线;在管理方面,可将科学数据质量等指标纳入评价机制,数据中心也可通过推进数据引用、利用数据重用指标来量化每个数据集的影响,以激励数据贡献者;在技术方面,数据中心可以通过提供数据集成与包括机器学习等技术在内的平台、数据搜索引擎、智能数据处理工具等措施,更为有效地为用户和机器提供更加友好、智能的服务;在国际化方面,鼓励以中英文双语发布元数据和数据,并积极参与国际认证,以增强中国数据中心的国际影响力。