科技日报柏林11月24日电 (记者李山)欧洲核子研究中心(CERN)11月20日启用了其开放数据网站(http://opendata.cern.ch),首次将包括大型强子对撞机(LHC)真实碰撞实验数据在内的一批高级别数据及相关软件免费开放给公众。除了对研究界具有很高的价值以外,预计这些数据还将被广泛用于教育目的。
CERN负责人罗尔夫·霍耶尔教授说:“启动CERN开放数据门户是我们的重要步骤。我们开始与世界共享的大型强子对撞机数据,是这个实验最宝贵的资产之一。我们希望这些开放数据能够支持和鼓励全球的研究团体,甚至学生和公众科学家。”
首批开放的高级别可分析碰撞数据来自LHC项目中的紧凑渺子线圈实验(CMS)。它们是2010年运行LHC时收集的。能够用来读取和分析数据的开源软件也与这组数据一起公布在CERN开放数据门户中。此外,该门户网站还可以访问到LHC项目中专门为教育目的而准备的数据集,范围涵盖了大型离子对撞机实验(ALICE)、超环面仪器实验(ATLAS)、紧凑渺子线圈实验和底夸克实验(LHCb)。
由LHC实验产生的数据一般被分为四个不同级别:一级数据包括直接相关的文档和直接出版物;二级数据包括在宣传和培训中分析使用的简化数据格式;三级数据包括重建数据,以及模拟和分析级软件,可以进行完整的科学分析;四级数据包括基础的原始数据和软件,以及访问所有实验数据的许可等。原始数据需要通过筛选、模式识别及粒子鉴别等事例重建过程才能变成具有物理意义的数据,即重建数据。目前为止,CERN在数据门户网站上公开发布的主要是第二和第三级数据。
“这是全新的,而且我们也很好奇,想看看这些数据会被怎样重新使用。”负责CMS数据保存协调的卡蒂·拉西拉-帕瑞尼说,“我们已经准备了工具和不同复杂程度的例子,从简化分析到可以使用的在线应用程序。我们希望综合实例会刺激外部用户的创造力。”
大型强子对撞机是CERN耗资约60亿美元、于2008年9月建成的目前世界上最大的粒子加速器设施。CERN每年有超过20PB的关于大型强子对撞机的研究数据需要存储和分析,开放数据的尝试将有助于推动数据保存从单一的存储到系统的开放共享。
总编辑圈点
数据分析师在对阿里巴巴内衣销售数据进行分析后发现,购买大号内衣的女性往往更“败家”——65%B罩杯的女性属于低消费顾客,而C罩杯及以上的顾客大多属于中等消费或高消费买家。据此商家可为不同的消费人群提供精准的需求信息。作为科研大数据的“领导者”,CERN向公众免费开放高级别数据的决定着实令人兴奋。这将刺激各个领域的外部用户实现怎样的创造力,我们目前还不得而知。毕竟,在大数据出现以前谁会知道罩杯与消费能力之间的关系呢?