◎洪恒飞 本报记者 江 耘
在贵州平塘,被称为“中国天眼”的500米口径球面射电望远镜(FAST),夜以继日地接收宇宙幽深处的射电信号。每秒生成的科学观测数据规模约为1.6吉字节(GB),一年的可公开观测数据大约为20拍字节(PB)。
在距FAST约1700公里的浙江杭州,之江实验室天文计算研究中心正开展AI寻星算法研究,对FAST捕获的海量数据“压缩提纯”,从中辨析有用信号,进而发现新的天体踪迹或天文现象。
前不久,之江实验室天文计算研究中心科研团队通过分析处理FAST约50太字节(TB)的观测数据,在球状星团M15中发现了自转周期分别为1.9秒和3.9秒的两颗长周期脉冲星,分别命名为M15K和M15L。其中,M15L是迄今发现的球状星团中自转周期最长的脉冲星。相关论文发表于《中国科学:物理学 力学 天文学》。
巧用自研算法 “提纯”天文信号
仰望夜空,星河璀璨。然而,天文仪器“看”到的景象却并不浪漫——电波信号经转化处理后,往往呈现为枯燥抽象的光斑或线条图案。
比如射电望远镜,其结构包括定向天线、高灵敏度接收机、信息显示系统等,可测量天体射电波的强度、频谱及偏振等信息。在观测状态下,它好比一台常年开启的录像机,默默记录着宇宙的奥秘。2021年10月,之江实验室联合中国科学院国家天文台,共同打造了天文智能计算平台FAST@ZJLAB,并组建智能计算天文团队。
基于FAST@ZJLAB,之江实验室科研人员将目标识别、语义分割等AI算法与天文信号处理理论相结合,研发了一系列深度学习模型,大幅提升了快速射电暴和脉冲星信号的筛选效率。
“FAST接收信号后会进行转换,相当于将视频导入剪辑软件。”之江实验室天文计算研究中心高级工程专家陈华曦介绍,“不过,信号内容大多相当于环境噪音,真正可用的很有限。”
从原始观测数据到最终证认出脉冲星,要经历消色散、参数设定、消干扰、去红噪声、周期搜索、候选体筛选、交叉验证、计时分析等若干步骤,涉及大量数据处理工作以及对计算资源的消耗。
“候选体筛选环节尤其耗时耗力。”陈华曦说,在经过参数估计、折叠算法进行搜索后,会得到大量候选体结果图,研究人员要靠肉眼识别结果图是否符合脉冲星的信号特征。
“一个小时的观测可能有数万张候选体图片,要从这么多图片中分辨出非常微弱的信号很难。”论文第一作者、之江实验室天文计算研究中心研究专员周登科说,利用天文计算研究中心自研的AI视觉模型,能对候选体信息进行高效筛选,可将需要人工介入筛选的候选体数量降低3个数量级。
炼得“金刚钻” 敢揽“瓷器活”
脉冲星,即快速旋转的中子星,会沿着磁轴的方向对外以电磁波束的形式辐射能量。凭借脉冲星的诸多特性,科学家尝试将其作为宇宙探针,探测银河系中星际介质的分布和密度、磁场分布与强度等,从而逐步构建“宇宙导航系统”。
最近一年,之江实验室天文计算研究中心基于FAST的观测数据共发现了31颗脉冲星,其中包括15颗长周期脉冲星。
基于前期建设基础,之江实验室天文计算研究中心目前已有上百名研究人员,其中天文方向约30人,计算方向约90人。
这个研究团队炼得了“金刚钻”,敢揽“瓷器活”。该团队曾仅用170小时完成约172TB数据的处理,相当于每小时速览1024部容量为1GB的电影。
“如果把Presto等开源算法比作锄头,中心自研的AI算法相当于大型机械化工具。”陈华曦说,二者并非替代关系,而是互补关系。开发更多算法,有益于对数据进行综合处理,催生更多天文发现。
周登科表示,天文领域数据量巨大,处理起来非常耗时。利用AI算法等智能计算技术辅助处理数据,可以让研究人员从繁重的数据分析中解放出来,将更多精力投入到理解数据背后的物理图像中,大大提高科研效率。