Skip to main content
QUICK REVIEW

[論文レビュー] Improved Heterogeneous Distance Functions

D.R. Wilson, Tony Martinez|arXiv (Cornell University)|Jan 1, 1997
Machine Learning and Data Classification参考文献 55被引用数 55
ひとこと要約

本稿では、インスタンスベース学習における名義的属性および連続的属性を効果的に処理する3つの新しい異種距離関数—HVDM、IVDM、WVDM—を提案する。正規化、補間、またはウィンドウ処理を用いてVDMの原則を連続データに統合することで、特に混合属性タイプのデータセットにおいて、従来の手法に比べ顕著に高い分類精度を達成する。IVDMが全体として最も優れた性能を示した。

ABSTRACT

Instance-based learning techniques typically handle continuous and linear input values well, but often do not handle nominal input attributes appropriately. The Value Difference Metric (VDM) was designed to find reasonable distance values between nominal attribute values, but it largely ignores continuous attributes, requiring discretization to map continuous values into nominal values. This paper proposes three new heterogeneous distance functions, called the Heterogeneous Value Difference Metric (HVDM), the Interpolated Value Difference Metric (IVDM), and the Windowed Value Difference Metric (WVDM). These new distance functions are designed to handle applications with nominal attributes, continuous attributes, or both. In experiments on 48 applications the new distance metrics achieve higher classification accuracy on average than three previous distance functions on those datasets that have both nominal and continuous attributes.

研究の動機と目的

  • 既存の距離関数が名義的属性と連続的属性を同時に処理できないという限界に対処すること。
  • 従来のVDMに基づくアプローチで連続的属性を離散化することによる情報損失を克服すること。
  • 混合属性タイプの実世界データセットにおいても高い汎化精度を維持できる距離メトリクスを開発すること。
  • 離散化の代替手段として、理論的裏付けと実証的検証を備えた、インスタンスベース学習システムにおける異種データ処理の代替案を提供すること。

提案手法

  • HVDMは連続的属性に対してユークリッド距離、名義的属性に対してVDMを組み合わせ、スケールのバランスをとるために正規化を用いる。
  • IVDMはVDMを拡張し、連続値をVDMの確率分布フレームワークに補間することで、連続データの直接利用を可能にする。
  • WVDMはスライディングウィンドウを用いて連続値の周囲の確率分布を推定し、連続入力に対してもVDMの論理を維持する。
  • 3つのメトリクスとも、k-NN や径基数関数ネットワークを含む既存のインスタンスベース学習システムと互換性を持つように設計されている。
  • 正規化と確率に基づく距離計算を組み合わせることで、多様な属性タイプにわたるロバスト性を確保する。
  • 離散化を回避することで、情報損失を低減し、連続的属性における汎化性能を向上させる。

実験結果

リサーチクエスチョン

  • RQ1離散化を伴わずに、名義的属性と連続的属性の両方を処理できる距離関数をどのように設計できるか?
  • RQ2離散化を回避することで、異種データセットにおける分類精度にどのような影響が生じるか?
  • RQ3IVDMとWVDMは、HVDMおよび離散化VDM(DVDM)と比較して、精度と効率の面でどのように異なるか?
  • RQ4VDMに基づくメトリクスを連続的属性に拡張できるか、理論的基盤を保ったままか?
  • RQ5どのような条件下で、IVDMとWVDMは混合属性学習タスクにおいて従来の距離関数を上回るか?

主な発見

  • 48個の実世界データセットにおいて、IVDMとWVDMはHVDM、DVDM、HOEM、ユークリッド距離よりも高い平均分類精度を達成した。
  • IVDMは精度においてWVDMをわずかに上回り、処理時間とストレージ使用量が少なかったため、全体として最も効率的であった。
  • 従来の離散化アプローチと比較して、情報損失が顕著に低減され、混合属性データセットにおける汎化性能が向上した。
  • HVDMはIVDMやWVDMに比べて性能が劣っており、ユークリッド距離とVDMを組み合わせるアプローチが、VDMフレームワークに完全に連続データを統合する手法よりも劣ることが示された。
  • 名義的属性を含まないデータセットでは、適切に正規化されたユークリッド距離が依然として競争力を持ち、同種のケースにおける適正さを確認した。
  • 結果から、IVDMは名義的属性と連続的属性が混合したアプリケーションに最も適した距離関数であると考えられる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。