[論文レビュー] Feature Importance Measure for Non-linear Learning Algorithms
本稿では、カーネル法や深層ニューラルネットワークを含む任意の学習機械に適用可能な一般化された非線形特徴重要度の測定法であるMFI(Measure of Feature Importance)を提案する。MFIは、特徴を固定した際の予測の変化を測定することで、モデルベースの説明とインスタンスベースの説明を両立させ、複雑な相互作用を捉える。実験では、画像およびDNA配列において、MFIが重要特徴を効果的に特定し、ランダムなぼかし処理よりも性能低下の度合いが顕著に顕著であることが示された。
Complex problems may require sophisticated, non-linear learning methods such as kernel machines or deep neural networks to achieve state of the art prediction accuracies. However, high prediction accuracies are not the only objective to consider when solving problems using machine learning. Instead, particular scientific applications require some explanation of the learned prediction function. Unfortunately, most methods do not come with out of the box straight forward interpretation. Even linear prediction functions are not straight forward to explain if features exhibit complex correlation structure. In this paper, we propose the Measure of Feature Importance (MFI). MFI is general and can be applied to any arbitrary learning machine (including kernel machines and deep learning). MFI is intrinsically non-linear and can detect features that by itself are inconspicuous and only impact the prediction function through their interaction with other features. Lastly, MFI can be used for both --- model-based feature importance and instance-based feature importance (i.e, measuring the importance of a feature for a particular data point).
研究の動機と目的
- カーネル機械学習や深層ニューラルネットワークのような複雑で非線形な学習モデルにおける解釈可能な特徴重要度の欠如に対処すること。
- 個々の特徴は無関係であるが、組み合わせて作用することで予測に大きな影響を与える非線形な特徴相互作用を捉える手法を開発すること。
- 統一されたフレームワーク内で、モデルベース(グローバル)およびインスタンスベース(ローカル)の両方の特徴重要度説明を可能にすること。
- POIMs や FIRM といった既存手法を、より広範なデータタイプおよび学習アルゴリズムに一般化すること。
提案手法
- MFIは条件付き期待値によって定義される:Sϕ,f(t) = E[s(X)ϕ(X) | f(X) = t]、ここでϕは説明モード、fは注目特徴である。
- カーネルMFIは、カーネル関数を用いた共分散に基づく:S⁺ϕ,f(t) = Cov[k(s(X),s(⋅)), l(ϕ(X),ϕ(⋅)) | f(X) = t]、これにより非線形的かつ非パラメトリックな推定が可能となる。
- 説明モードϕにより、インスタンスベース(例:ϕ(X)=1 はピクセル/配列位置を意味する)またはモデルベース(例:ϕ(X)=X または ϕ(X)=B はモチーフマップを意味する)のどちらのモードにも対応可能である。
- 推定には、固定されたサンプルサイズ(実験では1000)を用いたモンテカルロサンプリングが用いられ、条件付き期待値が近似される。
- 本手法は、RBF-SVMおよびWDカーネルSVMを用いて、画像(USPSの数字分類)および配列(DNAスプライスサイト)データに適用された。
- 性能評価は、MFIで重要度順に並べた特徴をぼかした際の分類器の精度損失を、ランダムぼかし処理と比較して行なった。
実験結果
リサーチクエスチョン
- RQ1カーネル法やディープニューラルネットワークを含む多様な学習機械に適用可能な一般化された非線形特徴重要度測定法を開発できるか?
- RQ2MFIは、他の特徴と組み合わせてのみ予測に影響を与える特徴をどれだけ正確に検出できるか?
- RQ3MFIは、人間の直感とモデルの挙動に整合する意味のあるインスタンス固有の説明を提供できるか?
- RQ4MFIに基づく特徴順序付けは、ランダムな特徴ぼかし処理よりも、性能低下を速やかに引き起こすか?
主な発見
- 画像データにおいて、数字「3」の上部と下部をつなぐ縦方向のブリッジ部分がMFIで顕著に重要であると特定された。このピクセルをぼかした際、ランダムぼかし処理よりも著しく早い性能低下が観察された。
- DNA配列分類において、MFIは挿入されたモチーフ(GGCCGTAAA および TTTCACGTTGA)を正しく特徴として特定し、誤分類されたサンプルは少なくとも1つのモチーフに根拠がないことが判明した。
- 連続するMFI推定値間のフロベニウス距離は、215サンプルでゼロに収束した。これは推定が安定していることを示しており、ただし実行時間はほぼ指数関数的に増加した。
- サンプルサイズが1000の場合、実行時間と精度のバランスが良く、以降のすべての実験で採用された。
- インスタンスベースのMFIは、誤分類例においても、欠落したモチーフパターンや数字の縦方向接続欠落といった判別に寄与する特徴を正しく特定した。
- カーネルMFIは、ランダムぼかし処理よりも性能低下が顕著に顕著であり、MFIが特徴の予測への影響に応じて意味的に正しい順序でランク付けしていることを確認した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。