QUICK REVIEW

[論文レビュー] The Intriguing Relation Between Counterfactual Explanations and Adversarial Examples

Timo Freiesleben|arXiv (Cornell University)|Sep 11, 2020

Adversarial Robustness in Machine Learning参考文献 138被引用数 46

ひとこと要約

この論文は、反事後的説明（CEs）と adversarial examples（AEs）の間の数学的関係を形式化し、両者が同じ最適化問題に起因するが、重要な性質で異なることを示している：CEs は元の入力に近接する必要があり、望ましい正しいラベルに分類を反転させる必要があるのに対し、AEs は近接性を要求するが、誤分類を目的としている。研究は概念的違いを明確にし、XAI と adversarial robustness 研究の用語を統一し、両分野間の方法論的連携を可能にする。

ABSTRACT

The same method that creates adversarial examples (AEs) to fool image-classifiers can be used to generate counterfactual explanations (CEs) that explain algorithmic decisions. This observation has led researchers to consider CEs as AEs by another name. We argue that the relationship to the true label and the tolerance with respect to proximity are two properties that formally distinguish CEs and AEs. Based on these arguments, we introduce CEs, AEs, and related concepts mathematically in a common framework. Furthermore, we show connections between current methods for generating CEs and AEs, and estimate that the fields will merge more and more as the number of common use-cases grows.

研究の動機と目的

この論文の目的は、反事後的説明（CEs）と adversarial examples（AEs）の間の概念的混乱を解消することであり、これらは本質的に異なる性質を持つにもかかわらず、しばしば混同されている。
CEs と AEs の用語と形式的記法を、一つの数学的枠組み内に統一することで、文献における明確さを高め、曖昧さを減らすこと。
CE の生成手法が AEs の生成に、逆に AEs の生成手法が CE の生成にどのように寄与できるかを調査すること。特に、融資や画像分類といった共通の応用分野において。
特に、表形式データにおける surrogate モデルや感度分析のような手法を用いて CEs を生成する際、元の入力に十分に近接する保証がないため、技術の誤用によるリスクを強調すること。
XAI と adversarial machine learning のより深い統合を提唱する。これは、形式的な違いに基づくものであり、今後の研究を導くものである。

提案手法

この論文は、CE や AE の両方に共通する最適化問題に基づく統一された数学的枠組みを導入する：argmin_x′∈X d(x, x′) + λ d′(f(x′), y_des)。
CE は、x に近い入力 x′（d(x, x′) を最小化）であり、かつ望ましい正しい予測 y_des を得る（d′(f(x′), y_des) を最小化）ものとして形式的に定義される。
AE は、x に近いが、誤分類を引き起こす入力 x′ として定義される。すなわち f(x′) ≠ y_true であり、y_true は真のラベルである。
本論文は、CE と AE を以下の二つの主要基準に基づいて区別する：(1) 目的ラベル（望ましい vs. 間違い）と (2) 近接性の許容範囲（CE では最大限の近接性が不可欠だが、AE ではそうではない）。
既存の CE と AE の生成手法を評価し、どの手法が概念的に移行可能か（例：勾配ベースの最適化）、どの手法がそうでないか（例：表形式データにおける CE の surrogate モデル）を特定する。
本研究は、真のラベルに依存せずに誤分類を形式化するための因果モデリングを有望な道のりとして提案する。これは、AE が非因果的・無関係な特徴の摂動を利用する可能性を示唆している。

実験結果

リサーチクエスチョン

RQ1反事後的説明と adversarial examples は数学的にどのように関係し、どのような点で正式に異なるのか？
RQ2特に近接性とターゲットラベルの意味論に関して、CE と AE の核心的な概念的違いは何か？
RQ3CE の生成手法を AEs の生成に、逆に AEs の生成手法を CE の生成に、概念的または方法論的欠陥を避けてどれほど適応できるか？
RQ4なぜ現在の CE 生成手法は、元の入力に最大限に近接するように保証されないのか？その結果、説明の説得力にどのような影響を与えるのか？
RQ5因果モデリングは、正当な誤分類と不適切な誤分類を区別する形式的基盤を提供できるか？これにより、AE 生成の概念的基盤がどのように強化されるか？

主な発見

同じ最適化問題が反事後的説明と adversarial examples の両方を生成するが、目的が異なるため正式には異なる：CE は望ましい正しいラベルを、AE は誤分類を目的としている。
元の入力への最大限の近接性は、反事後的説明の特徴的特徴であるが、感度分析や surrogate モデルのような多くの現在の生成手法ではこれを保証しない。
AE の文脈で開発された勾配ベースの最適化手法は、近接性を自然に強制するため、CE の生成に概念的に移転可能である。
表形式データにおける CE の生成に用いられる surrogate モデルアプローチは、surrogate が元のモデルと忠実でない場合、誤った説明を生み出す可能性がある。
本論文は、現在の AE 生成手法がしばしば正当性に欠ける距離尺度に依存していること、および、距離尺度そのものよりも、モデルが人間が耐性を持つ概念を学習しないことが、AE の脆弱性の根本的要因である可能性を特定している。
因果モデリングは、誤分類を因果構造の破壊として定義する形式的で有望な道を提供する。これにより、より強固な AE 検出や CE の妥当性評価の基盤が築けるだろう。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。