[論文レビュー] Scalable Greedy Feature Selection via Weak Submodularity
本論文は、スケーラブルなグリーディ特徴選択アルゴリズムである DistributedGreedy および StochasticGreedy の理論的保証を、サブモジュラ関数に限らず弱サブモジュラ関数へと拡張し、乗法的近似保証が得られるために、有界なサブモジュラリティ比十分であることを示している。主な貢献は、RIP設計行列を用いたスパース線形回帰やロジスティック回帰といった問題に、これらの高速なアルゴリズムの適用範囲を広げられることであり、実験的検証により、スピードと精度のトレードオフが優れていることが示された。
Greedy algorithms are widely used for problems in machine learning such as feature selection and set function optimization. Unfortunately, for large datasets, the running time of even greedy algorithms can be quite high. This is because for each greedy step we need to refit a model or calculate a function using the previously selected choices and the new candidate. Two algorithms that are faster approximations to the greedy forward selection were introduced recently ([Mirzasoleiman et al. 2013, 2015]). They achieve better performance by exploiting distributed computation and stochastic evaluation respectively. Both algorithms have provable performance guarantees for submodular functions. In this paper we show that divergent from previously held opinion, submodularity is not required to obtain approximation guarantees for these two algorithms. Specifically, we show that a generalized concept of weak submodularity suffices to give multiplicative approximation guarantees. Our result extends the applicability of these algorithms to a larger class of functions. Furthermore, we show that a bounded submodularity ratio can be used to provide data dependent bounds that can sometimes be tighter also for submodular functions. We empirically validate our work by showing superior performance of fast greedy approximations versus several established baselines on artificial and real datasets.
研究の動機と目的
- スケーラブルなグリーディアルゴリズムの理論的性能保証をサブモジュラ関数を超えて拡張すること。
- サブモジュラリティ比が有界である弱サブモジュラリティが、DistributedGreedy および StochasticGreedy における近似保証を満たすために十分であることを示すこと。
- サブモジュラリティ比を用いたデータ依存の境界を提供し、サブモジュラ関数に対する標準的な保証よりもタイトな境界を得られることを示すこと。
- 合成データおよび実世界のデータセット(線形回帰およびロジスティック回帰タスクを含む)において、高速なグリーディ近似の性能向上を実験的に検証すること。
提案手法
- サブモジュラリティ比 γ が有界であるという前提に基づく、弱サブモジュラリティの一般化された概念を提案する。これは、厳密なサブモジュラリティの要件を緩和する。
- Nemhauser らの分析を適応し、弱サブモジュラリティ下でグリーディアルゴリズムが (1 - 1/e)γ の近似保証を達成することを示す。
- 制限等方性性(RIP)下でのスパース線形回帰にこのフレームワークを適用し、R² 集合関数が有界な γ を持つ弱サブモジュラ関数であることを示す。
- 制限強凸性(RSC)下で、一般化線形モデルにおける対数尤度のような凹関数集合に対しても結果を拡張する。
- DistributedGreedy および StochasticGreedy アルゴリズムを用い、パーティションごとのスケーリングおよび確率的評価によるスケーリングを実現する。
- サブモジュラリティ比を用いて、サブモジュラ関数に対する標準的な (1 - 1/e) 要因よりもタイトなデータ依存の性能境界を導出する。
実験結果
リサーチクエスチョン
- RQ1DistributedGreedy および StochasticGreedy の性能保証をサブモジュラ関数を超えて拡張できるか?
- RQ2有界なサブモジュラリティ比によって定義される弱サブモジュラリティが、グリーディアルゴリズムにおける乗法的近似保証を満たすために十分か?
- RQ3サブモジュラリティ比に基づくデータ依存の境界は、サブモジュラ関数に対する標準的な (1 - 1/e) 保証を上回ることができるか?
- RQ4これらの高速グリーディアルゴリズムは、スパース線形回帰やロジスティック回帰のような非サブモジュラ関数において、実際の性能がどうなるか?
主な発見
- 理論的分析により、目的関数がサブモジュラリティ比 γ を持つ弱サブモジュラ関数である場合、DistributedGreedy および StochasticGreedy の両方とも (1 - 1/e)γ の近似保証を達成することが示された。
- 合成データにおける実験結果から、両アルゴリズムが Lasso や Lasso+ よりも、分散線形回帰タスクにおける対数尤度および汎化性能の面で優れていることがわかった。
- 140,250 個の特徴を有する Electricity データセットにおいて、Distributed Forward Selection が、テストされたすべての手法の中で最高の尤度と最も良い汎化スコアを達成した。
- gisette データセットにおけるスパースロジスティック回帰において、StochasticGreedy は、対数尤度の損失を最小限に抑えながら、δ 値が 0.5 まででも顕著な高速化を達成した。
- サブモジュラリティ比 γ は、γ が大きい場合に標準的な (1 - 1/e) 要因よりもタイトなデータ依存の境界を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。