Skip to main content
QUICK REVIEW

[論文レビュー] Online Group Feature Selection

Jing Wang, Zhong‐Qiu Zhao|arXiv (Cornell University)|Apr 18, 2014
Artificial Immune Systems Applications参考文献 14被引用数 27
ひとこと要約

本稿では、特徴量がグループ単位で到着するリアルタイム環境において、判別性の高い特徴量を効率的に選択するためのオンライングループ特徴量選択(OGFS)を提案する。本手法は、グループ内選択にスペクトル解析を、グループ間の重複除去にラッソを用いることで、ベンチマークおよび実世界のデータセットにおいて、最先端のオンライン特徴量選択手法と比較して優れた分類精度と特徴量集合のcompactさを達成した。

ABSTRACT

Online feature selection with dynamic features has become an active research area in recent years. However, in some real-world applications such as image analysis and email spam filtering, features may arrive by groups. Existing online feature selection methods evaluate features individually, while existing group feature selection methods cannot handle online processing. Motivated by this, we formulate the online group feature selection problem, and propose a novel selection approach for this problem. Our proposed approach consists of two stages: online intra-group selection and online inter-group selection. In the intra-group selection, we use spectral analysis to select discriminative features in each group when it arrives. In the inter-group selection, we use Lasso to select a globally optimal subset of features. This 2-stage procedure continues until there are no more features to come or some predefined stopping conditions are met. Extensive experiments conducted on benchmark and real-world data sets demonstrate that our proposed approach outperforms other state-of-the-art online feature selection methods.

研究の動機と目的

  • 実世界の応用(画像解析やスパムフィルタリングなど)に見られるグループ構造を無視する、特徴量を個別に扱うオンライン特徴量選択手法のギャップを埋めるため。
  • 特徴量がグループ単位で到着し、全特徴量空間の事前知識が得られない状況下で、動的に選択を行うオンライングループ特徴量選択問題を定式化するため。
  • 各グループ内での判別性の高い特徴量選択と、グループ間の冗長性低減を組み合わせた2段階フレームワークを設計し、最適な特徴量サブセットを選択するため。
  • 実世界およびベンチマークデータセットにおいて、既存のオンライン特徴量選択手法と比較して、分類精度と特徴量集合のcompactさの両面で優れるようにするため。

提案手法

  • 本手法は2段階のプロセスを導入する:到着する各グループ内で、判別性に基づいて特徴量を選択するオンライングループ内選択。
  • グループ間選択には、これまでに観測されたすべてのグループ全体を対象とした、洗練されたラッソベースのスパース線形回帰モデルを適用する。
  • スペクトル解析を用いて、各グループ内の特徴量の重要度を判別力に基づき計算し、各グループの到着に応じて動的に選択を実行する。
  • ラッソ部は、非ゼロ係数のペナルティを課すことで、グループ間の冗長性を低減し、compactかつ情報豊富な特徴量サブセットを促進する。
  • アルゴリズムは段階的に動作し、各新しいグループの到着後に選択された特徴量集合を更新する。全特徴量空間を事前に用意する必要がない。
  • フレームワークは適応的かつスケーラブルであり、グループ単位で到着する高次元データストリームを効果的に処理できる。

実験結果

リサーチクエスチョン

  • RQ1特徴量が個別ではなくグループ単位で到着する動的データストリームにおいて、オンライン特徴量選択を効果的に拡張できるか?
  • RQ2グループレベルの特徴量関係を活用することで、オンライン環境における特徴量選択のパフォーマンスを向上させられるか?
  • RQ3グループ内選択とグループ間選択を組み合わせた2段階アプローチが、既存のオンライン特徴量選択手法を精度とcompactさの両面で上回れるか?
  • RQ4スペクトル解析とラッソを組み合わせることで、グループ構造を持つストリーミングデータにおける特徴量選択がどの程度向上するか?

主な発見

  • ベンチマークデータセットでは、OGFSは8つのデータセットのうち7つでベースライン手法を分類精度で上回り、著しく優れたcompactさを達成した。
  • ColonおよびLeukemiaデータセットでは、OGFSはそれぞれ0.91および1.0の分類精度を達成したのに対し、Alpha-investingは0.80および0.65にとどまり、OGFSの優れた性能が示された(Alpha-investingはより高いcompactさを達成していたが)。
  • 15 Scenesデータセットでは、OGFSは0.54の精度を達成し、Alpha-investing(0.393)を著しく上回り、Fast-OSFSはメモリ制限のため失敗した。
  • 実世界のデータセットでは、OGFSはSoccerデータセットで最高の精度を達成し、Flower-17およびSoccerデータセットでも精度はFast-OSFSと同等または上回り、かつよりcompactな特徴量集合を実現した。
  • OGFSは、事前にグループ構造を持つ高次元画像データを含む多様なデータタイプにおいても高いパフォーマンスを維持し、その頑健性とスケーラビリティを実証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。