[論文レビュー] Robust Attribution Regularization
本稿では、統合勾配(IG)のAttributionの頑健性を向上させるために、ロバスト最適化の原則を組み込んだ、新たなトレーニングフレームワーク「ロバストアトリビューション正則化」を提案する。小さな入力摂動に対してAttributionのシフトを最小化するため、不確実性集合と分布的ロバストネスモデルを用いることで、摂動後の入力に対してもはるかに安定的かつ信頼性の高いセマンティックマップを実現。自然なモデルと比較して、摂動入力下で最大83%高いトップ100インターセクションと0.83の Kendall 相関を達成する。
An emerging problem in trustworthy machine learning is to train models that produce robust interpretations for their predictions. We take a step towards solving this problem through the lens of axiomatic attribution of neural networks. Our theory is grounded in the recent work, Integrated Gradients (IG), in axiomatically attributing a neural network's output change to its input change. We propose training objectives in classic robust optimization models to achieve robust IG attributions. Our objectives give principled generalizations of previous objectives designed for robust predictions, and they naturally degenerate to classic soft-margin training for one-layer neural networks. We also generalize previous theory and prove that the objectives for different robust optimization models are closely related. Experiments demonstrate the effectiveness of our method, and also point to intriguing problems which hint at the need for better optimization techniques or better neural network architectures for robust attribution training.
研究の動機と目的
- 最小限の入力摂動によって著しく変化するAttributionマップを生じるモデル解釈の頑健性の欠如に取り組む。
- 従来、モデル予測に適用されてきたロバスト最適化の原則を、特徴のアトリビューションの頑健性へと拡張する。
- 近接する入力においてIGアトリビューションが一貫したまま保たれるように、原理的かつ明示的なトレーニング目的を形式化する。
- 既存のロバストトレーニング目的をアトリビューション空間へ一般化しつつ、IGの理論的性質を保持する。
- ロバストに訓練されたモデルが、敵対的アトリビューション攻撃下でもより信頼性が高く安定したセマンティックマップを生成することを実証的に検証する。
提案手法
- データ分布上の標準損失を最小化する2段階の目的関数を提案:1つはデータ分布上での損失最小化、もう1つは摂動入力下でもIGアトリビューションの安定性を保証する。
- 不確実性集合モデルを用いて、各入力のε-ボール内での摂動入力に対してIGアトリビューションの大きさを最大化することで、ロバストネスを強制する。
- Wassersteinカップリングを用いた分布的ロバストネスモデルを適用し、摂動された分布下でのIGアトリビューションの期待差を制限する。
- 正則化のため、ℓ2ノルムなどの大きさ関数 s(·) を用いてIGアトリビューションの大きさを測定する。
- 異なるロバスト最適化モデル間の理論的関係を導出し、アトリビューションフレームワーク下でそれらが密接に関連していることを示す。
- 1層ネットワークへの一般化において、本手法は標準的なソフトマージントレーニングに帰着し、先行研究と整合性を確認する。
実験結果
リサーチクエスチョン
- RQ1ロバスト最適化の原則をモデル予測から特徴アトリビューションへ効果的に拡張できるか?
- RQ2入力摂動下での統合勾配アトリビューションの頑健性を形式的に定義し、強制することは可能か?
- RQ3アトリビューション正則化に適用した場合、異なるロバスト最適化モデル間の理論的関係は何か?
- RQ4ロバストアトリビューション正則化は、敵対的攻撃下でのセマンティックマップの安定性をどの程度向上させるか?
- RQ5提案手法は、頑健性を向上させつつも、統合勾配の理論的公理を保持するか?
主な発見
- ロバストアトリビューション正則化で訓練されたモデルは、自然なモデルと比較して、元の入力と摂動入力の間で最大83%高いトップ100インターセクションと0.8338の Kendall 相関を示す。自然モデルではそれぞれ43%と0.1293であった。
- IG-NORMおよびIG-SUM-NORMの変種は、ImageNet や CIFAR-10 を含むすべてのテストデータセットで自然モデルを上回り、ランク相関とインターセクションの両面で一貫した向上を示す。
- ImageNet-1k データセットでは、Tigerlily に対して63.4%のトップ1000インターセクションと0.8201の Kendall 相関を達成し、自然モデルの6.8%と0.4653を大きく上回った。
- 理論的整合性を維持しており、1層ネットワークの場合は標準的なソフトマージントレーニングに退化し、既存のロバスト学習フレームワークと整合していることが確認された。
- 実験から、ロバストアトリビューショントレーニングは、自然モデルが破壊するような最小摂動に対しても、視覚的および定量的により安定したアトリビューションをもたらすことが明らかになった。
- 結果から、現在の最適化手法やネットワークアーキテクチャが、ロバストアトリビューショントレーニングの潜在的限界を依然として制限している可能性があり、今後の手法的進展が求められると示唆された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。