Skip to main content
QUICK REVIEW

[論文レビュー] Top-down induction of clustering trees

Hendrik Blockeel, Luc De Raedt|ArXiv.org|Nov 21, 2000
Data Mining Algorithms and Applications参考文献 19被引用数 398
ひとこと要約

本稿では、距離に基づくプロトタイプを用いてデータを再帰的にクラスタに分割することで、教師なし学習にトップダウン型意思決定木の誘導を適応させる最初の階層型クラスタリングシステムであるTIC(Top-down Induction of Clustering trees)を提案する。この手法は、クラスタ定義を論理的決定木で表現し、距離測度で分割を誘導することで、欠損データが存在する状況でさえも、クラスタリング、回帰、分類の各タスクにおいて競争力ある性能を達成する。

ABSTRACT

An approach to clustering is presented that adapts the basic top-down induction of decision trees method towards clustering. To this aim, it employs the principles of instance based learning. The resulting methodology is implemented in the TIC (Top down Induction of Clustering trees) system for first order clustering. The TIC system employs the first order logical decision tree representation of the inductive logic programming system Tilde. Various experiments with TIC are presented, in both propositional and relational domains.

研究の動機と目的

  • トップダウン型意思決定木の誘導を教師なし学習に一般化する1階値クラスタリングシステムの開発。
  • 論理的決定木表現を用いて、関係的および命題的ドメインにおけるクラスタリングの実現。
  • クラスタリング、回帰、分類の各タスクにおけるシステムの性能評価。
  • クラス情報のみと複数の属性を用いた距離測度を比較することで、欠損データに対する耐性の評価。
  • 1階値木構造を通じて、論理的で人間が読みやすいクラスタの記述を提供すること。

提案手法

  • TICシステムは、クラスタプロトタイプ間の距離測度に従って、再帰的にデータをクラスタに分割するトップダウン型の分割型アプローチを採用する。
  • 各クラスタはその例から計算されたプロトタイプで表現され、クラスタ間の距離はこれらのプロトタイプ間の距離から導出される。
  • アルゴリズムは、クラスタ間距離を最大化するようにノードでのテストを選択し、TDIDTヒューリスティックをクラスタリングに適応させる。
  • クラスタを表現するために1階値論理的決定木を用い、テストにおいて存在記号の量化と関係的構造を可能にする。
  • 距離関数を変更することで、教師ありおよび教師なしモードをサポートする—クラスラベルまたは複数の属性を用いる。
  • 過学習を防ぎ、汎化性能を向上させるために、プルーニング手法を導入する。

実験結果

リサーチクエスチョン

  • RQ1クラスラベルをクラスタ表現に置き換えることで、意思決定木のトップダウン誘導をクラスタリングに効果的に適応できるか。
  • RQ2距離関数に複数の属性を用いることで、クラス情報のみを用いる場合と比較して、性能と欠損データに対する耐性にどのような影響を与えるか。
  • RQ3得られたクラスタリング木が、関係的データにおけるクラスタに対して意味的で論理的な記述を提供できるか。
  • RQ4クラスタリング、回帰、分類の各タスクにおける予測精度の観点から、TICは既存のクラスタリングシステムと比較してどのように差をつけるか。
  • RQ5プルーニングがクラスタリング木の汎化性能に与える影響は何か。

主な発見

  • Soybeanデータセットにおいて、すべての属性を同時に予測する状況で、TICは81.6%の予測精度を達成し、多属性予測において優れた性能を示した。
  • 50%の欠損データが存在する状況でも、クラス情報のみを用いた場合の分類精度は0.78、3つの数値属性を用いた場合は0.79を維持し、より豊かな距離測度が耐性を向上させることを示した。
  • 10%のデータしか利用できない状況では、クラスのみの距離測度では精度が0.67に低下したが、多属性距離測度では0.74に保たれ、より多くの特徴量が性能劣化を緩和することを確認した。
  • TICは、同一のフレームワークを用いてクラスタリング、回帰、分類のタスクを効果的に実行でき、その多様性を示した。
  • プルーニングの統合によりモデルの汎化性能が向上し、解釈可能な1階値論理的記述を含むクラスタの記述が得られた。
  • クラスベースの距離測度に比べ、複数の属性を距離関数に組み込むことで、欠損データに対する耐性が向上し、その有効性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。