Skip to main content
QUICK REVIEW

[论文解读] Machine Learning Applied to STAR-GALAXY-QSO Classification of The Javalambre-Photometric Local Universe Survey

Cunshi Wang, Yu Bai|arXiv (Cornell University)|Jun 24, 2021
Astronomy and Astrophysical Research被引用 2
一句话总结

该论文提出了一种基于支持向量机(SVM)的监督机器学习方法,用于在Javalambre-Photometric Local Universe Survey(J-Plus)中对天体(恒星、星系和类星体)进行分类,利用12波段测光数据和光谱标签。该分类器在盲测中达到96.5%的准确率,在交叉验证中达到97.0%,F₁分数分别为恒星95.0%、星系92.9%、类星体87.0%。

ABSTRACT

In modern astronomy, machine learning as an raising realm for data analysis, has proved to be efficient and effective to mine the big data from the newest telescopes. By using support vector machine (SVM), we construct a supervised machine learning algorithm, to classify the objects in the Javalambre-Photometric Local Universe Survey (J-Plus). The sample is featured with 12-waveband, and magnitudes is labeled with spectrum-based catalogs, including Sloan Digital Sky Survey spectroscopic data, Large Sky Area Multi-Object Fiber Spectroscopic Telescope, and VERONCAT - Veron Catalog of Quasars & AGN. The performance of the classifier is presented with the applications of blind test validations based on RAdial Velocity Extension, Kepler Input Catalog, 2 MASS Redshift Survey, and UV-bright Quasar Survey. The accuracies of the classifier are 96.5% in blind test and 97.0\% in training cross validation. The F_1-scores are 95.0% for STAR, 92.9% for GALAXY and 87.0% for QSO. In the classification for J-Plus catalog, we develop a new method to constrain the potential extrapolation.

研究动机与目标

  • 解决利用机器学习对光度观测的天体源进行恒星、星系和类星体分类的挑战。
  • 提升Javalambre-Photometric Local Universe Survey(J-Plus)中的分类准确率,该调查包含12个光度波段且源形态复杂。
  • 通过在独立数据集(如RAVE、Kepler输入星表、2MASS红移 Survey 和UV明亮类星体 Survey)上进行盲测,验证分类器的鲁棒性。
  • 开发一种新方法,以约束对新出现的、未见过的数据进行分类时可能出现的外推误差。

提出的方法

  • 采用基于支持向量机(SVM)的监督机器学习框架,对J-Plus调查中的天体进行分类。
  • 使用来自光谱星表(包括SDSS、LAMOST和Quasars & AGN的Veron星表)的标记光度数据进行分类器训练。
  • 将12波段光度数据用作输入特征,以表征每个源的谱谱能量分布(SED)。
  • 通过在外部数据集(RAVE、Kepler输入星表、2MASS红移 Survey 和UV明亮类星体 Survey)上进行盲测来验证性能。
  • 在训练过程中应用10折交叉验证,以估计泛化性能。
  • 提出一种新方法,用于评估并约束预测中针对训练数据分布之外源的外推风险。

实验结果

研究问题

  • RQ1基于SVM的机器学习模型在J-Plus 12波段光度调查中对恒星、星系和类星体的分类准确率如何?
  • RQ2当在RAVE、Kepler输入星表、2MASS红移 Survey 和UV明亮类星体 Survey 等独立盲测数据集上测试时,分类器的性能如何?
  • RQ3F₁分数在三类天体中如何变化,特别是对更具挑战性的类星体类别?
  • RQ4分类器在训练数据分布之外的源上泛化能力如何?这种风险在多大程度上可以被定量约束?

主要发现

  • SVM分类器在盲测中达到96.5%的准确率,表明其对未见数据具有强大的泛化能力。
  • 分类器在10折交叉验证中达到97.0%的准确率,表明其内部一致性强且过拟合程度低。
  • F₁分数分别为恒星95.0%、星系92.9%、类星体87.0%,显示类星体性能略低,原因在于其复杂且可变的SED。
  • 该模型在J-Plus星表中以高置信度对天体进行了分类,且在多个外部数据集上得到了验证。
  • 所提出的外推风险约束方法为评估训练数据范围之外光度分类的不确定性提供了一种新颖工具。
  • 结果证实,基于多波段测光的SVM分类方法在J-Plus等大规模天文调查中极为有效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。