QUICK REVIEW

[論文レビュー] Comparing interpretability and explainability for feature selection

Jack Dunn, Luca Mingardi|arXiv (Cornell University)|May 11, 2021

Explainable Artificial Intelligence (XAI)参考文献 9被引用数 23

ひとこと要約

本研究では、解釈可能なモデル（CART、最適木）とブラックボックスモデル（XGBoost、SHAP）における特徴選択のための変数重要度を評価し、解釈可能なモデル、特に最適木が、より正確に不要な特徴を特定し、より多くの固有値を持つ特徴に偏りが少ないことを発見した。一方、XGBoostとSHAPは一貫して重要度を誤って割り当て、高い予測精度にもかかわらず特徴選択性能が低いことが判明した。

ABSTRACT

A common approach for feature selection is to examine the variable importance scores for a machine learning model, as a way to understand which features are the most relevant for making predictions. Given the significance of feature selection, it is crucial for the calculated importance scores to reflect reality. Falsely overestimating the importance of irrelevant features can lead to false discoveries, while underestimating importance of relevant features may lead us to discard important features, resulting in poor model performance. Additionally, black-box models like XGBoost provide state-of-the art predictive performance, but cannot be easily understood by humans, and thus we rely on variable importance scores or methods for explainability like SHAP to offer insight into their behavior. In this paper, we investigate the performance of variable importance as a feature selection method across various black-box and interpretable machine learning methods. We compare the ability of CART, Optimal Trees, XGBoost and SHAP to correctly identify the relevant subset of variables across a number of experiments. The results show that regardless of whether we use the native variable importance method or SHAP, XGBoost fails to clearly distinguish between relevant and irrelevant features. On the other hand, the interpretable methods are able to correctly and efficiently identify irrelevant features, and thus offer significantly better performance for feature selection.

研究の動機と目的

異なる機械学習モデルにおける変数重要度スコアの信頼性を、特徴選択のツールとして評価すること。
XGBoostのようなブラックボックスモデルや、SHAPのような説明可能性手法が、真の特徴の関連性を正確に反映しているかどうかを調査すること。
CART や最適木のような解釈可能なモデルが、固有値の数が多い特徴に選択バイアスを受けるかどうかを評価すること。
グリーディ木の代替としてグローバル最適化がなされた最適木（Optimal Trees）が、特徴選択の正確性を向上させ、バイアスを低減するかどうかを検証すること。
異なるデータサイズと特徴分布下での、特徴重要度の特定における収束速度と正確性を比較すること。

提案手法

選択バイアスを誘発するように制御された特徴分布を備えた合成データセットを用いる。具体的には、2、4、10、20個の固有値を持つ特徴を含む。
正確な特徴関連性の評価が可能な、正確に3つの特徴を分割に使用する真の木（ground truth trees）を生成する。
CART、最適木、XGBoost、SHAPにおけるネイティブなメソッドを用いて変数重要度を計算し、複数回の実行におけるスコアを集約する。
トレーニングセットサイズの増加に伴い、不要な特徴に割り当てられる重要度の割合を測定することで、性能を評価する。
特徴選択性能が予測精度に影響を受けることのないよう、アウトオブサンプル精度を報告する。
選択バイアスに対するロバストネスをテストするため、均一に生成された特徴（バイアスなし）と、固有値の数が異なる丸め処理を施した特徴（バイアスあり）の両方の設定で実験を実施する。

実験結果

リサーチクエスチョン

RQ1XGBoost や SHAP が得る変数重要度スコアは、合成データセットにおける特徴の真の関連性を正確に反映しているか？
RQ2固有値の数が多い特徴に向けられる選択バイアスは、CART や XGBoost における変数重要度にどのように影響するか？
RQ3解釈可能なモデル、たとえば最適木は、ブラックボックスモデルに比べ、不要な特徴を識別する上で優れているか？
RQ4トレーニングデータが増加するに従い、さまざまなモデルが正しい変数重要度の割り当てにどの程度の速さで収束するか？
RQ5最適木におけるグローバル最適化の使用は、グリーディなCARTと比較して選択バイアスを低減するか？

主な発見

最適木（OCT）は、小さなサンプルサイズでも不要な特徴にほぼゼロの重要度を割り当て、他のモデルよりも速く収束する。
XGBoost と SHAP は、特にノイズの高い環境下で、関連のある特徴と関連のない特徴を区別できず、不要な特徴に顕著な重要度を割り当ててしまう。
CART はバイアスありの設定でばらつきが増大し、収束が遅くなる傾向を示しており、固有値の数に基づく選択バイアスに脆弱であることが示された。
高い予測精度を達成しているにもかかわらず、XGBoost の変数重要度スコアは特徴選択の文脈では信頼できない。なぜなら、不要な特徴に重要度を誤って割り当ててしまうからである。
SHAP は理論的にはバイアスを是正するが、実際には不要な特徴を正しく特定できないため、特徴選択における実用的有用性に限界があることが示された。
最適木はXGBoostと同等の予測性能を達成しながら、特徴選択の正確性が高く、バイアスも低減されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。