欧洲航天局Gaia太空望远镜的主要任务是,在光学波段精确描绘银河系各天体的位置、颜色和速度。其释放的二期数据(DR2),包含近17亿个天体的基本信息。Gaia科学组使用机器学习算法,估计DR2中恒星的有效温度,然而,由于训练样本体量不足,仅为6万颗恒星,得到的有效温度存在偏差。
国家重大科技基础设施郭守敬望远镜(LAMOST)巡天已经产出近千万量级的天体光谱,为科研人员提供了理想的训练样本。首先,该课题组集合LAMOST、SEGUE、APOGEE和RAVE光谱数据库,使用最新拟合的判据,对恒星样本进行清洗;其次,精心组合Gaia星表中的参数,训练回归器模型,并进行折叠测试;然后对Gaia DR2应用回归器,得到新的有效温度星表,其中包含1.3亿颗恒星;最后,科研人员开发了一种全新的方法对回归器进行了盲测试验(均方根误差小于260K,标准偏差小于196K),同时进行了外部插值试验。试验结果显示,该星表包含更准确的恒星大气有效温度。由于该回归器的训练特征量仅使用Gaia星表内的参数,因此可以无障碍地应用于Gaia未来将要释放的数据。
该项成果的意义在于证明了恒星的有效温度不仅与色指数紧密相连,而且依赖于恒星的位置、自行和视差;机器学习输入的特征量表面上看似与输出量无关,实际很可能有潜在的联系,而这些联系无法用函数、图像、甚至语言所描绘。

图1 Gaia DR2有效温度与该项研究得到的有效温度对比,不同颜色表示恒星在温度空间的密度。竖直暗条纹显示,对于某些温度的恒星,Gaia DR2无法分辨,而该回归器可以很好的区分。