QUICK REVIEW

[论文解读] Robust variable selection in the framework of classification with label noise and outliers: Applications to spectroscopic data in agri-food

Andrea Cappozzo, Ludovic Duponchel|arXiv (Cornell University)|Oct 20, 2020

Spectroscopy and Chemometric Analyses参考文献 63被引用 12

一句话总结

本文提出了一种稳健的变量选择方法——逐步RED DA，该方法可同时在高维光谱分类中执行特征选择、异常值检测和标签噪声识别。该方法在仅使用3至5个波长的情况下实现了具有竞争力的预测精度，同时有效处理了农产品数据集中的污染问题，在噪声条件下优于PLS-DA和SVM等标准方法。

ABSTRACT

Classification of high-dimensional spectroscopic data is a common task in analytical chemistry. Well-established procedures like support vector machines (SVMs) and partial least squares discriminant analysis (PLS-DA) are the most common methods for tackling this supervised learning problem. Nonetheless, interpretation of these models remains sometimes difficult, and solutions based on feature selection are often adopted as they lead to the automatic identification of the most informative wavelengths. Unfortunately, for some delicate applications like food authenticity, mislabeled and adulterated spectra occur both in the calibration and/or validation sets, with dramatic effects on the model development, its prediction accuracy and robustness. Motivated by these issues, the present paper proposes a robust model-based method that simultaneously performs variable selection, outliers and label noise detection. We demonstrate the effectiveness of our proposal in dealing with three agri-food spectroscopic studies, where several forms of perturbations are considered. Our approach succeeds in diminishing problem complexity, identifying anomalous spectra and attaining competitive predictive accuracy considering a very low number of selected wavelengths.

研究动机与目标

解决用于农产品分类的高维光谱数据中存在的标签噪声和异常值问题。
开发一种基于模型的变量选择方法，对污染具有鲁棒性，且无需预处理。
通过仅选择最具信息量的波长来降低问题复杂度，同时保持高预测精度。
在已知存在污染的真实农产品数据集上展示该方法的有效性。
提供一种可靠且自动化的替代方案，以替代手动光谱范围选择，从而最小化数据损失和成本。

提出的方法

该方法基于假设类别条件密度服从多元正态分布的模型化分类框架。
采用一种鲁棒估计程序来估计参数（均值、协方差矩阵和先验概率），以降低异常值和误标样本的影响。
通过基于鲁棒似然比检验的逐步前向选择过程执行变量选择。
通过评估每个观测对参数估计和分类性能的影响，将异常值和标签噪声检测整合到过程中。
直接在原始光谱上操作，无需预处理，从而在选择过程中保留完整的光谱信息。
最终模型选择最小数量的波长，以在存在污染的情况下最大化分类精度。

实验结果

研究问题

RQ1所提出的稳健变量选择方法在光谱分类中的标签噪声条件下表现如何？
RQ2该方法是否能在无需数据预处理的情况下检测并减轻异常值和误标样本的影响？
RQ3当仅选择少量波长时，该方法的预测性能如何？
RQ4在污染数据集中，该方法与PLS-DA和SVM等标准方法相比表现如何？
RQ5手动光谱范围选择在多大程度上存在丢弃有信息波长的风险？

主要发现

在橄榄油数据集中，逐步RED DA在缩减光谱范围和完整光谱范围上的分类准确率分别为80.5%和80.2%，优于PLS-DA和SVM。
该方法在缩减光谱范围和完整光谱范围中分别仅选择了3个和5个波长，显著降低了问题复杂度。
尽管完整范围中的特征数量增加了600倍，逐步RED DA仍保持了稳定的准确率，而SVM和PLS-DA的性能则出现了明显下降。
所选波长（如704 cm⁻¹、1726 cm⁻¹、3366 cm⁻¹）对应于化学上有意义的吸收峰，如C–H弯曲振动和羰基伸缩振动。
该方法成功识别并排除了无信息区域（如2400–2250 cm⁻¹），同时在高波数区域保留了具有判别力的信息。
手动光谱范围选择存在丢弃有价值信息的风险，这一点在完整范围分析中得到证实：3000 cm⁻¹以上的波长表现出极强的判别能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。