科技日报北京7月1日电 (记者崔爽)记者1日从国家区块链技术创新中心获悉,日前,新华社国家重点实验室、人民网、中国科学院文献情报中心等单位宣布,联合国家区块链技术创新中心,共同建设高价值语料可信安全流通生态体系。运用区块链、隐私计算等前沿信息技术,全国范围的大模型语料资源将在隐私安全保护和流转增值激励中,形成可持续、自生长的数据供给生态。
人工智能大模型训练使用的高价值语料数据是影响其发展的关键因素。当前,高价值语料数据跨单位、跨行业、跨地区分布,但由于缺乏足够的隐私安全保障和有效的激励机制,语料数据拥有者往往“不敢分享”“不愿分享”,造成数据“供给难、流通难、使用难”。以区块链、隐私计算为代表的新一代信息技术,凭借可信存证、不可篡改、易确权、充分保护数据隐私安全等性能,可以保障语料数据可信安全地流通、使用和管理。
据介绍,成员单位将运用我国区块链软硬件一体基础设施,搭建起覆盖全国的分布式语料数据互联互通桥梁,链接语料供给方、加工方、需求方,实现全国分布式语料数据可信接入,跨地域可发现、可访问,形成高质量语料数据集。同时,成员单位运用区块链智能合约技术,实现语料数据流通全链路透明、自动“计量结算”,激励语料拥有者分享数据;运用创新隐私计算技术,保障大模型高价值语料数据在处理加工和模型训练过程中无法二次传播。
此外,生态体系的共建各方还将开展基于区块链与隐私计算的语料数据可信安全流通规范制定,形成高价值语料数据流通与增值的可持续生态,推动人工智能大模型行业发展。