Skip to main content
QUICK REVIEW

[论文解读] Improved Heterogeneous Distance Functions

D.R. Wilson, Tony Martinez|arXiv (Cornell University)|Jan 1, 1997
Machine Learning and Data Classification参考文献 55被引用 55
一句话总结

本文提出了三种新的异质距离函数——HVDM、IVDM 和 WVDM——能有效处理实例学习中的名义属性和连续属性。通过将 VDM 原理与连续数据结合,采用归一化、插值或窗口化方法,这些方法在混合属性类型的数据集上显著提升了分类准确率,尤其在 IVDM 表现最佳。

ABSTRACT

Instance-based learning techniques typically handle continuous and linear input values well, but often do not handle nominal input attributes appropriately. The Value Difference Metric (VDM) was designed to find reasonable distance values between nominal attribute values, but it largely ignores continuous attributes, requiring discretization to map continuous values into nominal values. This paper proposes three new heterogeneous distance functions, called the Heterogeneous Value Difference Metric (HVDM), the Interpolated Value Difference Metric (IVDM), and the Windowed Value Difference Metric (WVDM). These new distance functions are designed to handle applications with nominal attributes, continuous attributes, or both. In experiments on 48 applications the new distance metrics achieve higher classification accuracy on average than three previous distance functions on those datasets that have both nominal and continuous attributes.

研究动机与目标

  • 解决现有距离函数在同时处理名义属性和连续属性方面的局限性。
  • 克服传统基于 VDM 方法中对连续属性离散化导致的信息损失。
  • 开发在具有混合属性类型的真实世界数据集中保持高泛化准确率的距离度量。
  • 为实例学习系统中的异质数据提供一种理论基础坚实、实证验证有效的替代离散化的方法。

提出的方法

  • HVDM 将连续属性的欧氏距离与名义属性的 VDM 结合,通过归一化平衡量纲差异。
  • IVDM 通过将连续值插值到 VDM 的概率分布框架中,扩展了 VDM,使连续数据可直接使用。
  • WVDM 使用滑动窗口估计连续值周围的概率分布,保持 VDM 对连续输入的逻辑。
  • 所有三种度量均设计为与现有实例学习系统兼容,包括 k-NN 和径向基函数网络。
  • 这些方法结合了归一化与基于概率的距离计算,确保在多种属性类型下的鲁棒性。
  • 该方法避免了离散化,保留了信息,提升了连续属性上的泛化能力。

实验结果

研究问题

  • RQ1如何设计距离函数以在不进行离散化的情况下同时处理名义属性和连续属性?
  • RQ2避免离散化对异质数据集分类准确率的影响是什么?
  • RQ3IVDM 和 WVDM 在准确率和效率方面与 HVDM 及离散化 VDM(DVDM)相比如何?
  • RQ4能否将基于 VDM 的度量扩展至连续属性,同时保持其理论基础?
  • RQ5在何种条件下,IVDM 和 WVDM 在混合属性学习任务中优于传统距离函数?

主要发现

  • 在 48 个真实世界数据集上,IVDM 和 WVDM 的平均分类准确率高于 HVDM、DVDM、HOEM 和欧氏距离。
  • IVDM 在准确率上略高于 WVDM,且所需时间和存储更少,整体效率最高。
  • 与基于离散化的方法相比,新距离函数显著减少了信息损失,提升了混合属性数据集的泛化能力。
  • HVDM 的表现劣于 IVDM 和 WVDM,表明将欧氏距离与 VDM 混合使用的效果不如将连续数据完全整合进 VDM 框架。
  • 在无名义属性的数据集中,经过适当归一化的欧氏距离仍具竞争力,证实其在同质情况下的适用性。
  • 结果表明,IVDM 是处理混合名义与连续属性的异质应用中最合适的距离函数。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。