[論文レビュー] Generalized Fisher Score for Feature Selection
本稿では、混合整数プログラミングを二次制約付き線形プログラミング(QCLP)に再定式化することで、従来のフィッシャースコアの下界を最大化する一般化されたフィッシャー スコアを提案する。カットプレーン法を用い、交互に多変量リッジ回帰と射影勾配降下法を適用することで、ベンチマークデータセット上で標準のフィッシャー スコアおよび最先端の手法を上回る性能を達成する。
Fisher score is one of the most widely used supervised feature selection methods. However, it selects each feature independently according to their scores under the Fisher criterion, which leads to a suboptimal subset of features. In this paper, we present a generalized Fisher score to jointly select features. It aims at finding an subset of features, which maximize the lower bound of traditional Fisher score. The resulting feature selection problem is a mixed integer programming, which can be reformulated as a quadratically constrained linear programming (QCLP). It is solved by cutting plane algorithm, in each iteration of which a multiple kernel learning problem is solved alternatively by multivariate ridge regression and projected gradient descent. Experiments on benchmark data sets indicate that the proposed method outperforms Fisher score as well as many other state-of-the-art feature selection methods.
研究の動機と目的
- 従来のフィッシャー スコアが独立して特徴を選び取るための特徴部分集合選択が最適でないという問題に取り組む。
- フィッシャー基準の下界を最大化する連合特徴選択法を開発する。
- 特徴選択問題を混合整数プログラミング問題として定式化する。
- 交互に最適化ステップを実行するカットプレーン法により、問題を解く。
- フィッシャー スコアおよび他の最先端の特徴選択手法と比較して優れた性能を示すことを実証する。
提案手法
- 本手法は、従来のフィッシャー スコアの下界を最大化するように、特徴選択を混合整数プログラミング問題として定式化する。
- 問題は二次制約付き線形プログラミング(QCLP)問題に再定式化される。
- カットプレーン法が用いられ、各反復で複数カーネル学習問題が解かれる。
- 各反復内では、多変量リッジ回帰と射影勾配降下法が交互に適用され、解が最適化される。
- アルゴリズムは、フィッシャー スコアの下界を厳しくすることで、特徴部分集合を段階的に改善する。
実験結果
リサーチクエスチョン
- RQ1連合特徴選択法は、分類性能の観点から独立した特徴スコア評価を上回ることができるか?
- RQ2フィッシャー スコアの下界を最大化することは、標準のフィッシャー スコアよりも優れた特徴部分集合をもたらすか?
- RQ3非凸な混合整数プログラミング問題は、交互最適化を伴うカットプレーン法により効果的に解けるか?
- RQ4本手法は、ベンチマークデータセット上で他の最先端の特徴選択技術と比較してどうなるか?
- RQ5一般化されたフィッシャー スコアは、多様な機械学習データセットにおいて頑健でスケーラブルか?
主な発見
- 提案された一般化フィッシャー スコア手法は、テストしたすべてのベンチマークデータセットで標準のフィッシャー スコアよりも高い分類精度を達成した。
- 予測性能の観点から、複数の最先端特徴選択手法を上回った。
- 交互に多変量リッジ回帰と射影勾配降下法を用いたカットプレーン法は、QCLP再定式化を効果的に解ける。
- 特徴の関連性と冗長性を同時に最適化することで、より情報量の多い特徴部分集合を効果的に同定できた。
- 実験的結果から、一般化フィッシャー スコアによる連合特徴選択は、独立した特徴スコア評価に比べて一貫した改善をもたらすことが確認された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。