[論文レビュー] DLIME: A Deterministic Local Interpretable Model-Agnostic Explanations Approach for Computer-Aided Diagnosis Systems
DLIMEはLIMEのランダムな摂動を階層クラスタリングとKNNに置き換え、医療予測に対して決定論的で安定した説明を生成する。3つのUCI医療データセットで実証。
Local Interpretable Model-Agnostic Explanations (LIME) is a popular technique used to increase the interpretability and explainability of black box Machine Learning (ML) algorithms. LIME typically generates an explanation for a single prediction by any ML model by learning a simpler interpretable model (e.g. linear classifier) around the prediction through generating simulated data around the instance by random perturbation, and obtaining feature importance through applying some form of feature selection. While LIME and similar local algorithms have gained popularity due to their simplicity, the random perturbation and feature selection methods result in "instability" in the generated explanations, where for the same prediction, different explanations can be generated. This is a critical issue that can prevent deployment of LIME in a Computer-Aided Diagnosis (CAD) system, where stability is of utmost importance to earn the trust of medical professionals. In this paper, we propose a deterministic version of LIME. Instead of random perturbation, we utilize agglomerative Hierarchical Clustering (HC) to group the training data together and K-Nearest Neighbour (KNN) to select the relevant cluster of the new instance that is being explained. After finding the relevant cluster, a linear model is trained over the selected cluster to generate the explanations. Experimental results on three different medical datasets show the superiority for Deterministic Local Interpretable Model-Agnostic Explanations (DLIME), where we quantitatively determine the stability of DLIME compared to LIME utilizing the Jaccard similarity among multiple generated explanations.
研究の動機と目的
- CADシステムにおける局所的なモデル非依存説明の安定性の懸念を動機づける。
- HCとKNNを用いたLIMEの決定論的代替手法(DLIME)を提案する。
- 医療データセットでDLIMEが繰り返し実行しても一貫した説明を生むことを示す。
提案手法
- LIMEのランダム摂動を凝集階層的クラスタリングに置き換え、クラスターを形成する。
- テストインスタンスに対して支配的なクラスターを特定するためにKNNを使用する。
- 選択されたクラスター上で線形回帰モデルを訓練し、説明を生成する。
- ランダム摂動ではなくクラスタリング由来のサンプルを用いて決定論性を示す。
- 複数の説明に渡るJaccard類似度(または距離)で安定性を評価する。
- 再現性のために公開コードとデータリポジトリを提供する。
実験結果
リサーチクエスチョン
- RQ1DLIMEのような決定論的フレームワークは、同一インスタンスに対する繰り返し説明でも安定した説明を提供できるか。
- RQ2医療データセットにおける予測を説明する際、DLIMEの安定性はLIMEとどのように比較されるか。
- RQ3CAD文脈での階層的クラスタリングとKNNベースのサンプリングが説明品質に与える影響は何か。
主な発見
| Dataset | Opaque Model | DLIME | LIME |
|---|---|---|---|
| Breast Cancer | RF | 0 | 9.43% |
| Breast Cancer | NN | 0 | 57.95% |
| Liver Patients | RF | 0 | 17.87% |
| Liver Patients | NN | 0 | 55.00% |
| Hepatitis Patients | RF | 0 | 16.46% |
| Hepatitis Patients | NN | 0 | 39.04% |
- DLIMEは、10回の反復においてすべてのデータセットとモデルでJaccard距離が0の決定論的な説明を生成する。
- LIMEは反復間で説明に非ゼロの大きな変動を示し、安定性が欠如している。
- 3つの医療データセット(Breast Cancer, Liver, Hepatitis)での実験は、DLIMEの安定性がLIMEより優れていることを示した。
- 表の結果は、DLIMEの安定性がデータセット-モデルの組み合わせすべてで常にゼロであるのに対し、LIMEは非ゼロのJaccard距離を示す顕著な不安定性を示す。
- 本研究は、DLIMEが説明の一貫性を維持できる一方でLIMEの摂動は特徴重要度を変動させることを確認した。
- すべてのデータセットとコードは再現性のために参照されたGitHubリポジトリで入手可能。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。