Skip to main content
QUICK REVIEW

[论文解读] Missing values : processing with the Kohonen algorithm

Marie Cottrell, Patrick Letrémy|arXiv (Cornell University)|Jan 5, 2007
Neural Networks and Applications参考文献 4被引用 28
一句话总结

本文提出使用柯亨诺自组织映射(SOM)处理缺失数据,利用该算法在训练过程中直接处理不完整观测值的能力,并通过类别特定的均值插补估计缺失值。即使在变量相关的情况下,该方法在高达64%的缺失数据下仍能保持高分类准确率和估计精度,这一结果在包括宏观经济、城市和政府支出数据在内的三个真实世界数据集中得到验证。

ABSTRACT

The processing of data which contain missing values is a complicated and always awkward problem, when the data come from real-world contexts. In applications, we are very often in front of observations for which all the values are not available, and this can occur for many reasons: typing errors, fields left unanswered in surveys, etc. Most of the statistical software (as SAS for example) simply suppresses incomplete observations. It has no practical consequence when the data are very numerous. But if the number of remaining data is too small, it can remove all significance to the results. To avoid suppressing data in that way, it is possible to replace a missing value with the mean value of the corresponding variable, but this approximation can be very bad when the variable has a large variance. So it is very worthwhile seeing that the Kohonen algorithm (as well as the Forgy algorithm) perfectly deals with data with missing values, without having to estimate them beforehand. We are particularly interested in the Kohonen algorithm for its visualization properties.

研究动机与目标

  • 解决使用传统方法分析含缺失值数据集时常常导致数据丢失或估计偏差的挑战。
  • 证明柯亨诺自组织映射(SOM)能够在无需预先插补或删除成对缺失值的情况下有效处理不完整数据。
  • 提供一种稳健的缺失值估计方法,利用最终码书向量作为类别均值,尤其在变量相关时表现优异。
  • 在具有不同程度缺失值的真实世界数据集上验证该方法的稳定性和准确性。
  • 展示SOM能够在标准软件失效的极端稀疏数据集中实现分类和缺失值插补。

提出的方法

  • 将柯亨诺算法调整为仅使用观测到的分量计算距离,获胜码向量基于非缺失分量的平方差之和确定。
  • 在训练过程中,仅对每个观测值的非缺失分量更新码向量,学习率随时间递减。
  • 收敛后,缺失值被估计为获胜码向量的对应分量(即类别均值)。
  • 通过反平方距离的softmax变换计算成员概率,实现加权插补和不确定性估计。
  • 在训练后,通过仅使用可用分量将补充观测值(包括不完整观测值)分配给最近的码向量进行分类。
  • 该方法在三个真实数据集上进行了验证:社会经济指标、城市统计数据以及随时间变化的政府支出数据,插补精度通过均方误差进行衡量。

实验结果

研究问题

  • RQ1柯亨诺自组织映射能否在无需预先插补的情况下,有效处理和分类含缺失值的数据?
  • RQ2基于最终码书向量推导出的类别特定均值插补方法,对缺失值的估计精度如何?
  • RQ3变量相关性在多大程度上影响使用SOM进行缺失值估计的性能?
  • RQ4当缺失数据比例增加时,所得聚类结构和插补结果的稳定性如何?
  • RQ5SOM能否对极端稀疏数据集(例如64%缺失值)进行分类,而标准软件无法处理?

主要发现

  • 柯亨诺算法在高达64%缺失率的数据集中成功实现了分类和缺失值插补,如伊勒-维莱讷城市数据示例所示。
  • 在政府支出数据集中,当每年最多缺失3个值(27%缺失率)时,插补值的均方误差保持在0.73以下,表明估计精度很高。
  • 该方法在所有测试的缺失率水平下均保持了稳定的聚类结构,即使在73%缺失率时,三个超类(第一次世界大战前、两次世界大战期间、第二次世界大战后)仍得以保留。
  • 伊勒-维莱讷数据的相关系数矩阵显示,105对变量中有76对相关系数超过0.8,这解释了插补结果的高精度。
  • 成员概率确认了地图的组织结构,显著概率集中在相邻类别中,验证了拓扑结构的合理性。
  • 在稀疏数据集中,该方法优于成对删除法,后者在完整案例分析中仅保留205个城镇中的5个,而SOM保留了所有观测值。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。