QUICK REVIEW

[論文レビュー] A Benchmark for Interpretability Methods in Deep Neural Networks

Sara Hooker, Dumitru Erhan|arXiv (Cornell University)|Jun 28, 2018

Adversarial Robustness in Machine Learning被引用数 379

ひとこと要約

本論文は ROAR を紹介する。改変データで再学習するフレームワークを用いて深層ネットの特徴重要度推定器を経験的に評価し、多くの一般的手法がランダムベースラインを上回らない一方で、アンサンブル法の VarGrad および SmoothGrad-Squared が優れていることを示す。

ABSTRACT

We propose an empirical measure of the approximate accuracy of feature importance estimates in deep neural networks. Our results across several large-scale image classification datasets show that many popular interpretability methods produce estimates of feature importance that are not better than a random designation of feature importance. Only certain ensemble based approaches---VarGrad and SmoothGrad-Squared---outperform such a random assignment of importance. The manner of ensembling remains critical, we show that some approaches do no better then the underlying method but carry a far higher computational burden.

研究の動機と目的

深層学習における入力特徴量重要度推定法の信頼できる評価の必要性を動機づける。
ROAR (Remove and Retrain) を特徴重要度推定値の近似精度を測定する経験的ベンチマークとして提案する。
大規模な画像データセット上で広範な推定器を評価し、それらの相対的な信頼性を判断する。
アンサンブリングが性能に与える影響を示し、最良の説明を生み出すアンサンブルの変種を特定する。

提案手法

ROAR を、推定された重要度で入力特徴をランク付けし、上位の割合を平均値に置換してから、修正データ上でランダム初期化からモデルを再学習することで定義する。
推定器をランダムおよび Sobel エッジフィルタのベースラインと比較して、性能の下限を確立する。
基礎推定器（Gradients、Guided Backprop、Integrated Gradients）とアンサンブル変種（SmoothGrad、SmoothGrad-Squared、VarGrad）を、ImageNet、Food-101、Birdsnapを横断して評価する。
設定ごとに5回の再学習を用いてばらつきを考慮し、平均テスト精度を報告する。
アンサンブル法が単一推定に対して改善するかを分析し、アンサンブリングが計算負荷に与える影響を検討する。

Figure 1: A single ImageNet image modified according to the ROAR framework. The fraction of pixels estimated to be most important by each interpretability method is replaced with the mean. Above each image, we include the average test-set accuracy for 5 ResNet-50 models independently trained on the

実験結果

リサーチクエスチョン

RQ1ROAR評価下で、一般的な入力特徴量重要度推定法はランダム機会よりも精度が高いか。
RQ2アンサンブルベースの推定法（SmoothGrad、SmoothGrad-Squared、VarGrad）は、大規模データセット全体で単一推定値およびランダムベースラインを上回るか。
RQ3ゼロから再学習した場合と非再学習の削除ベース評価とを比較して、説明の測定品質にどのような影響があるか。
RQ4基礎となる推定器が、データセット間で最良のアンサンブル法の性能に影響を与えるか。
RQ5アンサンブル法の計算コストと解釈性精度のトレードオフはどうなるか。

主な発見

基礎推定器（Gradients、Integrated Gradients、Guided Backprop）は、ROARの下でデータセット全体にわたり、ランダムベースラインと同程度かそれ以下である。
クラシック SmoothGrad は、単一推定より悪いことが多く、場合によってはランダムベースラインより悪い。
SmoothGrad-Squared と VarGrad は、他の手法より一貫して大きな精度向上を提供し、ランダムおよび Sobel のベースラインを上回る。
VarGrad と SG-SQ の性能利得は ImageNet、Food101、Birdsnap のすべてで観察されるが、最良の基礎推定器はタスクによって異なる場合がある。
再学習は劣化を大幅に緩和することが多く、アトリビューション品質を適切に評価するには再学習が必要であることを示している。

Figure 2: A comparison between not retraining and ROAR on artificial data. In the case where the model is not retrained, test-set accuracy quickly erodes despite the worst case ranking of redundant features as most important. This incorrectly evaluates a completely incorrect feature ranking as being

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。