
NASA的数据库里,沉睡着近2000亿条观测记录。专业天文学家已经花了十几年时间对其中的数据进行分析,他们认为这片天空已经被探索得足够彻底了。
然后,一名来自帕萨迪纳的美国高中生写了一套AI程序,重新翻了一遍这堆数据,找出了约150万个此前从未被识别的变化天体。
这件事发生在2022年到2024年之间,成果发表于《天文学杂志》,主角马特奥·帕兹(Matteo Paz)凭此拿下了2025年再生元科学人才奖的25万美元一等奖。
旧数据里的"时间胶囊"
这个故事的起点是NASA的NEOWISE任务,一台设计用来搜寻近地小行星的红外望远镜。
NEOWISE在执行主要任务的同时,也顺带捕捉到了无数遥远天体的红外信号,包括亮度随时间变化的变星、爆发中的超新星,以及互相遮掩的食双星系统。这些数据被忠实地记录了下来,在长达10.5年的时间里积累成将近200TB的庞大档案,约合20万GB。
问题在于体量。NEOWISE单次曝光数据库包含的探测条目接近2000亿行,这个数字意味着哪怕只想手动检查天空中的一小片区域,速度也慢得令人绝望。加州理工学院红外处理与分析中心(IPAC)的天文学家戴维·柯克帕特里克后来形容,团队的测量数据"已经接近2000亿行",常规分析手段面对这种规模的数据几乎无从下手。
帕兹当时是加州理工学院行星发现者学院暑期项目的学员,柯克帕特里克是他的导师。他们面对的,是一个经典的现代科学困境:数据不缺,缺的是以合理速度理解数据的工具。
帕兹的解决方案是建立一套他命名为VARnet的AI系统。这套系统的工作原理是接收一条光变曲线,也就是某个天体亮度随时间变化的记录,然后通过小波分解和基于傅里叶变换的特征提取,将这条曲线拆解为不同时间尺度上的变化模式,最后交由神经网络判断这种变化是真实的天文信号,还是随机噪声。

轨道图显示了太阳系中探测到的数千个天体,这是基于人工智能对 NASA NEOWISE 数据集进行分析的一部分。
在技术指标上,VARnet处理每个数据源的时间低于53微秒,在四类变星的分类测试中,F1分数达到了0.91,也就是说它能够以相当高的准确率区分类星体、超新星残骸、脉动变星和食双星等不同类型的变化天体。
正是这套系统,让帕兹得以在NEOWISE的海量档案中完成了一次前所未有的全面扫描,最终整理出一份包含约190万个红外变星的星表,其中约150万个是此前从未被记录在案的新发现。
高中生"捡漏",背后是天文学的真实困境
这个故事最容易被误读的地方,是把它当成一个"天才少年"的励志叙事。
但更值得关注的,其实是它暴露出来的科学问题:大量有价值的数据正在天文档案里默默等待,只是因为缺乏合适的分析工具,它们的潜力从未被完整释放过。帕兹的项目本质上不是在寻找新的天体,那些天体一直都在,NEOWISE已经"看"到了它们,只是没有人有办法在合理时间内,从那2000亿行记录里把它们一一挑出来。
这在当代天文学里并非孤例。随着新一代巡天望远镜和空间任务的上线,天文数据的产生速度已经远远超过了人类手动分析的极限。正在建设中的薇拉·鲁宾天文台(Vera C. Rubin Observatory)预计每晚将产生约20TB的观测数据,每年识别数百亿个天体,这个量级的数据处理几乎从一开始就注定要依赖机器学习。
帕兹的VARnet还有一个被低调提及的优势:它在"被尘埃遮蔽"的天区同样有效,而这些区域恰恰是传统光学巡天的盲区,因为可见光无法穿透浓密的星际尘埃,但红外线可以。这意味着这份新星表里,包含了相当数量来自银河系尘埃遮蔽区域的天体,那是一片此前几乎从未被系统性研究过的天文领土。
帕兹自己在描述这项研究时说过,类似的时间序列分析方法,如果配备合适的传感器,同样可以用来检测大气污染等环境数据中的周期性模式,因为季节和昼夜循环会在这些数据中留下可识别的规律性特征。
一个高中生从一堆"已经研究过"的旧数据里挖出了150万个没人见过的宇宙天体。这件事最大的启示,也许不是关于这个孩子有多聪明,而是关于我们手边到底还藏着多少没被认真看过的东西。
财盛证券提示:文章来自网络,不代表本站观点。