科学数据要像科学论文一样积极“共享”

时间：2022-03-05 12:11:45 来源：中国科学报发布时间：2022/3/5 12:27:42

选择字号：小中大

科学数据要像科学论文一样积极“共享”

中国科学院青藏高原研究所（简称青藏高原所）研究员张国庆看着电脑屏幕，手移动着鼠标，光标在Landsat影像（陆地卫星影像）上以毫米计的距离移动，定位于中国范围内每一个湖泊，之后将有关遥感影像和数据下载。

在数以千万次地拖动点击鼠标，初步了完成数据集。随后，张国庆再次紧盯每一个湖泊，比对、检查、修正。遇到看着很像湖泊的水体单元，张国庆要耗费更多的精力和时间，确保湖泊边界的准确性。

这样的动作，张国庆和他的学生持续了3年多，他的目标是了解过去50年全国大于1平方公里的湖泊数量与面积变化及其驱动因素。

最终在2019年，张国庆利用超过3831景遥感卫星影像获得长时间序列全国湖泊编目数据集，较现有数据更新、更完整。

在数据集完成的第一时间，张国庆将其上传到了“国家青藏高原科学数据中心”（以下简称数据中心），并开放给所有需要者免费获取使用。很快，这一数据集被国家水利部门、湖泊水文研究学者等用于完善我国水资源管理战略，研究生态资源与环境变化趋势，开展乡村调查等。

“做出来高质量的数据，本应该开放共享。”张国庆告诉《中国科学报》。他从事的是冰冻圈和环境遥感研究，其大部分科研工作与数据有关，他还共享了青藏高原湖泊水位、水量变化等数据集。

国家青藏高原科学数据中心自2019年成立以来，迄今已3年，像张国庆这样愿意开放共享的科研人员越来越多。在数据中心主任、青藏高原所研究员李新看来，在中国实现科学数据的公开共享不仅需要自上而下的授权，还需要激励机制，以提高研究人员对数据共享实践的信心和意愿。

数据开放难在哪儿？

2020年，一项对我国超过2000名科研人员的调查显示，我国研究人员虽有分享研究数据的意愿，但他们也担心数据的误用及版权和许可受到侵犯。在我国，与同事和合作者私下共享数据的情况更为普遍，而不是更广泛的公开共享。

李新也发现，当数据与论文关联起来时，科研人员共享数据的意愿相对高一些。

“科研人员发论文，谁也没有犹豫，都很乐意公开发表，科学数据其实也应该是同样道理。”李新笑称，“与十几年前相比，总体上我国数据开放共享的状态是乐观积极的。但在我国研究人员中更为广泛地树立数据共享的信心，仍需大量工作。”

比如，科学数据哪些该保密，哪些不该保密，边界仍是困惑；科研人员采集的数据还需要整理、描述、质量控制和中英文编辑等，这些“额外”的劳动成果难以被认定；科研人员的辛苦付出，其知识产权有时没有被保护好。

此外，如今已是“数据洪流”时代，然而由于一些技术问题，诸多质量高、描述好的数据在互联网搜索引擎上难以检索到，或是可以被检索到，但却难以获取和应用；数据质量和规范化水平不高，有调查显示，估计只有不到10%的中国地球科学元数据有英文版本，这阻碍了广泛的国际交流和影响。

促进数据开放共享，从政策、管理，到技术等方面都存在一定壁垒，需要有更具体的行动。更重要的，是科研人员的主观意愿和动力。

不少人在网络平台上“吐槽”不愿共享的原因：“工作量大，科技含量低”“又累又苦，有时还有危险”“没有回报”……

的确，数据不论收集难度还是时间跨度非一朝一夕所能完成。清华大学阳坤教授团队用了10余年时间开发一套中国区域地面气象要素驱动数据集（1979-2018），为中国区陆面过程模拟提供驱动数据。

阳坤的学生何杰博士是这套数据的主要开发人员之一，从2008年作为研究生时便开始采集整理数据，“尽管不需要有技术突破，但很多时候依赖‘上游’数据，需要用各种各样的办法排除可能存在疑问的数据，然后做出高质量的数据产品，这个过程是繁琐、耗时的。”

谈及愿意共享的原因时，何杰告诉《中国科学报》，气象要素驱动数据集地学研究中不可或缺，以气象为例，只有给模型输入高质量的数据，才能获得科学的气候环境模拟结果。“做数据集的初衷，就是因为之前使用的数据模拟效果‘不理想’，想为我国地学学者提供一套可靠数据。有人用，才能够体现我们研究的价值。”

10余年来，何杰与导师开发的这套数据集的精度高于国际上已有再分析数据的精度，成为国内研究广泛使用的气象数据集之一。如今，何杰是青藏高原所的工程师，“没有更多论文考核的压力，可以更充分地完善数据集。”

激励机制是关键

自身研究驱动，是数据采集者开放、共享的初衷。但要广泛提高动力，在李新看来，“数据贡献者的认同感和工作的价值感需要被体现。”

李新先后承担了国家自然基金委“中国西部环境与生态科学研究”和“黑河流域生态-水文过程集成研究”两个重大研究计划的项目，这两项计划均要求，受资助课题得到的科学数据都必须公开共享。在项目的年度评估、中期考核及最终评估环节，数据提交共享和数据质量都是被评定的内容。

这两项先导性计划的成功让李新感触颇深，“这种自上到下对公开数据共享予以支持的政策和自下到上对数据贡献者予以激励的机制，是能够实现中国更为广泛数据共享的关键。”

前不久，在青藏高原所组织的国际评估中，不少国际专家对张国庆的科研能力以及他的数据工作给予了认可和肯定。

数据中心也努力让数据贡献者有“价值感”，为每个自有产权的数据赋予唯一的数字对象标识符，体现数据的跟踪价值、引用价值、集成价值和互联价值。

但这还不够，李新建议，研究成果或项目资助中除了考察其高质量论文的发表情况，还可增加其所贡献科学数据质量等相关的条款。此外，数据出版也是促进科学数据开放共享的重要手段，主要参考学术论文的出版方式，规范地描述科学数据本身，并接受严格的同行评审，遵从学术出版规范。比如，国内一流综合期刊可率先尝试要求在论文投稿时，同步提交论文相关数据，并且优先选择国内数据中心作为数据仓储。

“数据计量和规范化数据引用方面，还缺乏统一的规范，影响了对科学数据贡献者的激励和科学数据的开放。”李新表示，加强数据引用，科学论文应按照标准的数据引用格式，引用支持论文成果的关键数据集；同时，加强数据引用计量，体现数据作者的知识产权和贡献，激励数据共享。

“只有通过对数据贡献者进行适当的评估、肯定和鼓励，数据共享才能成为一项自愿的机制，当大家都愿意共享时，一种良好的氛围也就形成了。”李新说。

开放的“FAIR”原则

在数据开放中，不少科研人员有着“开放数据可能会给自己的科研工作带来风险”的顾虑，也一定程度上影响了他们自下而上开放科学数据的意愿。

一方面希望应该开放的数据“不设任何边界的”开放，而另一方面需要保密的数据又要“非常保守”的保密，这对矛盾体依然是摆在数据开放共享面前的问题。

李新说，科学数据已经从“全面开放”原则过渡到目前普遍遵循的“FAIR”原则，即可发现性、可获取、可互操作、可重用。我国2018年颁布的《科学数据管理办法》“照开放为常态、不开放为例外的原则”的要求，也为这个矛盾的解决提供了一个“指引”。

不过，政策上还需更细化，李新表示，为了最大程度地实践数据共享，对敏感数据有清晰的定义及制定具体的共享限制政策显得尤为重要，比如那些涉及到国家安全、商业机密和个人隐私的数据当然可以保密，而其他数据应该充分开放共享。开放科学的知识产权协议，如知识共享协议，可作为一种通用协议被引入科学数据共享。

数据中心采取行动试图打消科研人员的顾虑，保护数据贡献者的知识产权。保留数据贡献者的版权，授权他人在协议限定范围内的转载、使用和二次演绎等；兼顾数据作者对特殊数据保护的诉求，比如可以设置不超过两年的数据保护期，或根据数据作者对数据共享需要附加额外条件的要求，设置数据申请审批流程等。

“数据中心不定期地就会进行安全自查，有可能涉密的数据就进行下线处理。”李新说。

数据中心不断开发新技术实践“FAIR”原则，采用国际标准提供数据引用方式和数据关联文献引用方式，支持数据出版，开发在线大数据分析、模型应用等功能。

在数据集描述页面添加相关元数据信息，使得数据中心的数据能够在谷歌数据搜索引擎中被查询到；尽量采用地学数据领域广泛认可的标准和规范来减少互操作性障碍；免登陆下载，降低数据下载门槛，开发中英文双语数据管理与共享平台，由专业编辑和公司“双重把关”英文数据质量......

这些，都促进了青藏高原及其周边相关科学数据的开放共享。

今年1月底，李新在总结会上公布，目前已收集并发布青藏高原及周边地区的科学数据集4600多个，累计页面访问量超过1.5亿，月均下载量达50TB，为青藏高原区域科技创新发展和地球系统科学研究提供了重要的数据支持。国家青藏高原科学数据中心也成为国内首个通过Nature数据期刊Scientific Data认证的数据仓储中心，大大提高了数据中心的影响力和权威性。

李新对于数据中心有着更“开放”的愿景：通过整合来自大数据和机器学习的技术，数据中心可以将大数据转化为信息和知识，更为有效地为数据用户服务，研发更多青藏高原及周边的高质量再分析数据产品；此外，建立一个平台，使用者无需下载便可在线使用数据集，就像“谷歌地球引擎”一样，使得数据检索更容易，数据访问更为广泛等。

“要实现数据共享的范式转变，仍需要政府、研究人员和数据中心的积极努力。数据和数据贡献者越受到激励，就越有利于科学和社会的发展。”李新说，他充满期待。

这样的动作，张国庆和他的学生持续了3年多，他的目标是了解过去50年全国大于1平方公里的湖泊数量与面积变化及其驱动因素。

最终在2019年，张国庆利用超过3831景遥感卫星影像获得长时间序列全国湖泊编目数据集，较现有数据更新、更完整。

数据开放难在哪儿？

李新也发现，当数据与论文关联起来时，科研人员共享数据的意愿相对高一些。

促进数据开放共享，从政策、管理，到技术等方面都存在一定壁垒，需要有更具体的行动。更重要的，是科研人员的主观意愿和动力。

不少人在网络平台上“吐槽”不愿共享的原因：“工作量大，科技含量低”“又累又苦，有时还有危险”“没有回报”……

激励机制是关键

自身研究驱动，是数据采集者开放、共享的初衷。但要广泛提高动力，在李新看来，“数据贡献者的认同感和工作的价值感需要被体现。”

前不久，在青藏高原所组织的国际评估中，不少国际专家对张国庆的科研能力以及他的数据工作给予了认可和肯定。

开放的“FAIR”原则

在数据开放中，不少科研人员有着“开放数据可能会给自己的科研工作带来风险”的顾虑，也一定程度上影响了他们自下而上开放科学数据的意愿。

“数据中心不定期地就会进行安全自查，有可能涉密的数据就进行下线处理。”李新说。

这些，都促进了青藏高原及其周边相关科学数据的开放共享。

推荐内容

科学数据要像科学论文一样积极“共享”

姜杰委员：捷龙三号火箭预计9月首飞 今年已初步安排2到3发

个体户火了！哪些人需要注册个体户

重磅信号！撤离欧洲？李嘉诚要抛售1200亿大项目，嗅到了什么？

诗意花城·听见花开｜在南国花城，品读诗歌《惊蛰二月节》

诗意花城·听见花开｜在南国花城，品读诗词《望江南·广州好》

中科院武汉分院院长袁志明：完善生物安全体系 培养专门人才

马永生委员:应加快CCUS产业链发展

武钢委员：科学配置储能 提升储能利用率

陶光辉代表：完善政策支持地热产业发展

老人退休以后，过自己的生活，对子女适当的帮扶，你怎么看？

1951年之前出生的人，2022年养老金调整，会有倾斜吗？

你“薅”过临期零食的羊毛吗？

2月销量掉出前三！蔚来与合肥的对赌，悬了

1岁时被父亲遗弃，养父把他培养成首富，为报恩他送养父1000亿

注意！地铁一号线今晚开始逢休息日提前1.5小时收车

青藏高原深部地壳热演化与地表隆升机制获揭示

工地迎来“开工潮”，包工头“高薪招聘”套路揭秘，不要上当

出生率跌破10‰！结婚人数创17年新低！解决高房价已刻不容缓

名创优品2022财年Q2财报：营收利润双增长，但长线市值缩水明显

全国最大“福利姬”平台主动扫黄：求求你们有点底线！

德邦的时代，输给了快递

22时44分！广州将迎来…

高水平大学一流学科，该“建群”了！

科技部等九部门印发《“十四五”东西部科技合作实施方案》

北京今日晴天“控场” 明日天空云量又增多

宁夏允许科研人员、高校教师、医师开展多点工作取得报酬

建议推行道地中药材地方政府专卖制度

南方大范围阴雨持续 全国大部气温震荡上升

截至3月4日24时新型冠状病毒肺炎疫情最新情况

去年国家助学贷款惠及500多万在校生

马斯克当选院士，王传福却落选了，为何中国评“职称”比美国难？

曾市值达300亿，从游戏巨头到如今无人问津，市值剩14亿濒临退市

个税最高25%，深圳为抢人才“拼了”！不限学历，来了就是深圳人

可口可乐为何死磕元气森林？

估值6000亿！保时捷“单飞”上市，大众等不及了！

早参 | 十三届全国人大五次会议今日上午开幕；广东幼儿园招生有新要求

B站去年净亏68亿，盈利仍是老大难

新技术可避免先天性巨结肠肠造口

激活京津冀人才链，赋能产业创新融合发展

山中医青岛中医药科学院多项成果找“婆家”

广州市海珠区首个“急救科普创新工作室” 揭牌成立

股价膝斩，亏损翻倍，B站终于想要“赚钱养家”了

暖心！多年如一日，这位边检女警坚持帮扶困境群众

华南理工大学新增“智能建造”等3个本科专业

研究发现逆转结直肠癌细胞铂类耐药的新策略

研究发现催产素调节焦虑情绪的最优给药策略

新研究揭示微生物介导的硫氧化锑还原耦合过程

我国依兰陨石坑进入世界陨石坑版图

我国南海区域海啸灾害研究获重要进展

湖南杂交水稻稻种经湘粤非铁海联运通道“出海”

我国新一代载人运载火箭正在研制中

比音勒芬的牛股密码

一天内两名孩子走失 ，越秀警方助团聚

践行雷锋精神，广州“的哥”初心守护乘客

"好好吃饭，保重身体！"结案后，八旬老人送给法官一本手制食谱致谢……

赵皖平代表：农业农村实现碳达峰碳中和之路

师法自然！科学家设计出全新锂金属电池负极结构

二氧化碳合成汽油新技术助力“双碳”

进化更聪明 鼠类学会分散藏食儿

蔡晓红委员：建议分步将重离子治疗纳入医保

武义青委员：运用数字化开展电机系统节能工作

焦新安代表：地方高校要力扛服务产业创新重任

一个改变让儿童食物过敏增长率趋稳

周日晚抵穗冷空气将达中等强度，最低气温出现在下周二或周三

白云区亭岗西地块规划调整，新增综合医院、九年一贯制学校

广州率先构建全链条闭环式信用监管新机制

广州市场监管部门严查“黄金食品”

上周，广州这四类电信网络诈骗高发

赵皖平代表：运用数字化技术开展长江保护工作

丁奎岭委员：进一步强化基础研究“主力军”

种康委员：建立国家级饲草育种与产业科创平台

九部门：实施“科技援青”，打造世界级盐湖产业基地

蔡晓红委员：让癌症患者用得上、用得起核医疗

赵皖平代表：加速农村电商与寄递物流融合发展

为什么大学生手机里都有夸克APP？

养老金按年龄发放，50岁三千、60岁四千，是不是个好办法呢？

在职场上，厉害的人，都善于做“减法” ​！

想被消费者pick？从打造品牌知名度开始！

姜杰委员：捷龙三号火箭预计9月首飞今年已初步安排2到3发

中科院武汉分院院长袁志明：完善生物安全体系培养专门人才

武钢委员：科学配置储能提升储能利用率

南方大范围阴雨持续全国大部气温震荡上升

一天内两名孩子走失，越秀警方助团聚

进化更聪明鼠类学会分散藏食儿

在职场上，厉害的人，都善于做“减法” ！

建议进一步加强科研道德建设抵制学术不端

推动理工类专业学会国际化提高国际化服务水平

1月贷款余额达295.84亿元江都农商行打响首季“开门红”