2024年01月22日 星期一
发挥科学数据要素的乘数效应

    ◎黄成凤  王 平

    1月4日,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》,“科技创新”被列为“数据要素×”应用的12个重点领域之一。科学数据是科技创新和经济社会发展的重要战略资源。其有序开放共享和高效场景应用,有利于推动前沿研究、支撑技术创新、支持大模型开发、加速科研范式变革。发挥科学数据要素的乘数效应,不仅要强化科学数据资源体系建设,更要完善科学数据汇聚、治理、流通和安全等全流程机制保障。为此,建议从以下几个环节发力。

    一是打造开放科学基础设施,支撑科学数据有序开放共享。应积极推动开放科学发展进程,以大科学工程、国际大科学计划、国际大型科学仪器及大科学装置平台为牵引,强化需求导向、以用促建,为全球开放科学数据合作提出“中国方案”。同时,我国各类型数据中心、仓储和平台互联互通不足,亟待统筹布局、一体化建设科学数据基础设施。通过数据开放共享和算力综合调度,促进科学数据、算力资源互联互通。搭建科学数据开放共享枢纽设施,面向重大科技基础设施、国家重点实验室等科技创新平台的实际需求,探索分布式可信流通实施方案,实现可信数据流通、数据确权、数据追溯以及数据隐私保护,支撑科学数据跨中心、跨地域、跨领域登记、开发等,打造具有竞争力的全球科技公共产品。

    二是推动科学数据多场景应用,激发科学数据要素巨大潜力。应组织研发更高效的科学数据汇聚、管理、存储工具,创建基于人工智能大模型的数据库和知识系统,提供“数据+计算”的数据资源和知识服务功能体系,推动前沿基础研究高质量发展。聚焦科学数据与场景应用结合需求迫切的方向,围绕产业链部署创新链,围绕创新链布局产业链,突破药物研发、基因研究、生物育种、新材料研发等产业发展瓶颈,加速技术创新和产业升级。鼓励通过公共数据开放、数据交易流通等多种途径,推动优质科学数据高效共享和高质量开放,打造人工智能大模型训练数据集和中文语料库。鼓励并组织来自不同学科的专业人员参与标注多模态训练数据及指令数据,为大模型训练提供专业、精准的领域知识。

    三是加强科学数据生态制度建设,保障开放科学可持续发展。交叉学科之间科学数据形式、话语体系各异等会导致跨学科协同难的问题。我国应建立跨领域、可量化、可落地的科学数据开放共享方案。探索建立政府、研究人员和科研机构等多元主体激励相融的科学数据开放共享机制。实现各级科技计划(专项、基金等)项目形成的科学数据共享,鼓励社会资金资助形成的其他科学数据共享。通过数据价值评估、数据引用、知识产权保护等多种方式激发研究人员和科研机构等数据贡献者的价值感和认同感。构建科学数据开放共享伦理的基础性行为指南,明确科学数据伦理的基本原则,推动各利益相关方达成伦理共识。

    (作者单位:之江实验室数据枢纽与安全研究中心)

京ICP备06005116