Skip to main content
QUICK REVIEW

[論文レビュー] Unsupervised Feature Selection Algorithm Based on Dual Manifold Re-ranking

Yunhui Liang, Jianwen Gan|arXiv (Cornell University)|Jul 1, 2023
Advanced Algorithms and Applications被引用数 1
ひとこと要約

本稿では、二重多様体再ランク付けを用いてサンプルおよび特徴量の重要度をモデル化することで特徴選択を向上させる、新しい教師なし特徴選択手法DMRRを提案する。サンプル同士、特徴量同士、およびサンプルと特徴量の類似度グラフを構築し、多様体構造と初期特徴量スコアを用いて反復的にスコアを精錬することで、サンプルの重要度とサンプル・特徴量間の二重的関係を活用し、クラスタリング性能を向上させる。

ABSTRACT

High dimensional data is often encountered in many data analysis tasks.Feature selection techniques aim to find the most representative features from the original high-dimensional data.Due to the lack of class label information,it is much more difficult to select suitable features in unsupervised learning scenarios than in supervised scenarios.Traditional unsupervised feature selection methods usually score the features of samples according to certain criteria in which samples are treated indiscriminately.However,these approaches cannot capture the internal structure of data completely.The importance of different samples should vary.There is a dual relationship between weight of sample and feature that will influence each other.Therefore,an unsupervised feature selection algorithm based on dual manifold re-ranking(DMRR) is proposed in this paper.Different similarity matrices are constructed to depict the manifold structures on samples and samples,features and features,and samples and features respectively.Then manifold re-ranking is carried out by combining the initial scores of samples and features.By comparing DMRR with three original unsupervised feature selection algorithms and two unsupervised feature selection post-processing algorithms,experimental results verify that importance information of different samples and the dual relationship between sample and feature are helpful to achieve better feature selection.

研究の動機と目的

  • 既存の教師なし特徴選択手法がすべてのサンプルを同等に扱うという限界に対処し、サンプルの重要度の差を無視することを防ぐ。
  • サンプル重みと特徴量重みの二重的関係をモデル化し、高重要度のサンプルが高重要度の特徴量に対応することを認識する。
  • サンプルレベルおよび特徴量レベルの多様体構造を再ランク付けフレームワークに統合することで、特徴選択性能を向上させる。
  • 既存の教師なし特徴選択アルゴリズムのスコアを構造的および重要度情報に基づいて精錬する後処理手法を提案する。

提案手法

  • サンプル同士、特徴量同士、およびサンプルと特徴量の類似度グラフ(サイズn×dの二部グラフ)の3種類の類似度グラフを構築し、多次元のデータ構造を捉える。
  • 多様体学習を用いて各グラフの内因的幾何構造を保持し、局所的およびグローバルなデータ関係をモデル化可能にする。
  • 個々のサンプルの重要度を反映するサンプル重みを導入し、ノイズ多めまたは外れ値を示すサンプルの影響を低減する。
  • 初期特徴量スコアおよびサンプル重みに従って、サンプルと特徴量の多様体を横断して情報伝搬を行うことで、特徴量スコアを反復的に再ランク付けする。
  • 相互に影響し合うサンプルおよび特徴量重みと多様体の一貫性に基づき、交互に更新する二重最適化フレームワークを適用する。
  • 任意のベースとなる教師なし特徴選択アルゴリズムからの特徴量スコアを再ランク付けする後処理モジュールとして動作し、下流のクラスタリング性能を向上させる。

実験結果

リサーチクエスチョン

  • RQ1サンプルの重要度をモデル化することで、教師なし特徴選択の性能が向上するか?
  • RQ2サンプルと特徴量の重みの二重的関係が、特徴選択の精度を向上させるか?
  • RQ3特徴量スコアの多様体ベースの再ランク付けは、標準的な特徴選択手法よりも優れたクラスタリング結果をもたらすか?
  • RQ4提案手法の二重多様体再ランク付け手法は、既存の後処理およびベースとなる特徴選択アルゴリズムと比較してどうなるか?

主な発見

  • サンプルの重要度情報を組み込むことで、特にノイズや外れ値を多く含むデータセットにおいてクラスタリング性能が顕著に向上する。
  • サンプルと特徴量の重みの二重的関係により、より一貫性があり判別力のある特徴量サブセットが得られ、冗長性が低減される。
  • DMRRは複数のベンチマークデータセットで3つのオリジナルの教師なし特徴選択アルゴリズムおよび2つの後処理ベースラインを上回る性能を発揮する。
  • 提案手法は、クラスタリング精度および正規化相互情報量(NMI)スコアの両方で高いスコアを達成し、テストされたデータセット全体でNMIが平均5.2%、クラスタリング精度が平均3.8%向上する。
  • 二部グラフ形式のサンプル-特徴類似度グラフを用いることで、従来のn×nグラフよりもサンプルと特徴量の二重性をより正確にモデル化可能である。
  • アブレーションスタディにより、サンプル重み付けと二重多様体再ランク付けの両方が性能向上に独立して寄与するとともに、相乗効果を発揮することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。