Skip to main content
QUICK REVIEW

[論文レビュー] LassoNet: A Neural Network with Feature Sparsity

Ismael Lemhadri, Feng Ruan|arXiv (Cornell University)|Jul 29, 2019
Statistical Methods and Inference参考文献 60被引用数 59
ひとこと要約

LassoNet はグローバル特徴選択を可能にする skip (residual) 層をニューラルネットに追加し、階層的制約を課して特徴サブセットの正則化パスを生成します。

ABSTRACT

Much work has been done recently to make neural networks more interpretable, and one obvious approach is to arrange for the network to use only a subset of the available features. In linear models, Lasso (or $\ell_1$-regularized) regression assigns zero weights to the most irrelevant or redundant features, and is widely used in data science. However the Lasso only applies to linear models. Here we introduce LassoNet, a neural network framework with global feature selection. Our approach enforces a hierarchy: specifically a feature can participate in a hidden unit only if its linear representative is active. Unlike other approaches to feature selection for neural nets, our method uses a modified objective function with constraints, and so integrates feature selection with the parameter learning directly. As a result, it delivers an entire regularization path of solutions with a range of feature sparsity. On systematic experiments, LassoNet significantly outperforms state-of-the-art methods for feature selection and regression. The LassoNet method uses projected proximal gradient descent, and generalizes directly to deep networks. It can be implemented by adding just a few lines of code to a standard neural network.

研究の動機と目的

  • ニューラルネットワークにおける特徴選択を動機づけ、非線形設定での線形 Lasso の限界に対処する。
  • スキップ層のメカニズムを介して特徴の疎性を強制するニューラルネットワークフレームワークを導入する。
  • モデルを訓練するための新規 Hier-Prox 手法を用いた近接勾配最適化を開発する。
  • 特徴の疎性に対する正則化パスを提供し、計算効率を実証する。
  • 実データセット上で最先端の特徴選択法に対する経験的優位性を示す。

提案手法

  • 経験的損失と skip 層の重み (theta) に対する l1 ペナルティを組み合わせた目的関数を定義する。
  • 最初の層の重み W^(1) を skip 重みと結ぶ制約を ||W^(1)_j||_infty ≤ M |theta_j| として階層を強制する。
  • 2 段階の訓練を用いる:標準的な勾配ステップの後に特徴ごとの階層的近接更新(Hier-Prox)を適用する。
  • ウォームスタート戦略を実装し、密集解から疎解へと正則化パスを追跡する。
  • Hier-Prox が特徴ごとに分解され、複雑さが O(p log p) となることを証明する(p はパラメータ数)。
  • 共有特徴選択を出力間で実現する Group-Hier-Prox を用いて、教師なし設定へフレームワークを拡張する。

実験結果

リサーチクエスチョン

  • RQ1グローバルな特徴選択を実現しつつ予測力を保つようなニューラルネットワークは訓練可能か。
  • RQ2階層的な疎性制約は特徴サブセット間で制御可能な正則化パスを生み出すか。
  • RQ3 proximal gradient 法をニューラルネットワークの階層性を効率的に課すように適応できるか。
  • RQ4LassoNet は既存の特徴選択法と比較して精度と特徴の簡潔さのどの程度の利点を示すか。
  • RQ5LassoNet は教師なし学習や行列補完タスクへ拡張可能か。

主な発見

データセット(n,d)クラス数All-FeaturesFisherHSIC-LassoPFALassoNet
Mice Protein1080, 7780.9900.9440.9580.9390.958
MNIST10000, 784100.9280.8130.8700.8730.873
MNIST-Fashion10000, 784100.8330.6710.7850.7930.800
ISOLET7797, 617260.9530.7930.8770.8630.885
COIL-201440, 400200.9960.9860.9720.9750.991
Activity5744, 56160.8530.7690.8290.7790.849
  • LassoNet は多様な実データセットで最先端の特徴選択法を上回ることが多い。
  • 解釈可能な特徴サブセットを提供しつつ高い予測精度を維持する。
  • 正則化パスは特徴の疎性と性能の間の制御可能なトレードオフを提供する。
  • dense から sparse へのウォームスタートは一般化性能を向上させ、局所極小値を避ける。
  • Hier-Prox はその近接部分問題内でグローバル最適性を達成し、O(p log p) にスケールする。
  • 教師なし学習や行列補完への拡張はフレームワークの汎用性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。