QUICK REVIEW

[논문 리뷰] The Intriguing Relation Between Counterfactual Explanations and Adversarial Examples

Timo Freiesleben|arXiv (Cornell University)|2020. 09. 11.

Adversarial Robustness in Machine Learning참고 문헌 138인용 수 46

한 줄 요약

이 논문은 반사적 설명(CEs)과 적대적 예외(AEs) 간의 수학적 관계를 체계화하여, 둘이 동일한 최적화 문제에서 유래하지만 핵심적인 특성에서 다름을 보여준다: CEs는 원본 입력에 가까운 위치를 유지하고 원하는 올바른 레이블로 전환되어야 하며, AEs는 가까운 위치를 유지하지만 오분류를 목표로 한다. 연구는 개념적 차이를 명확히 하고, XAI와 적대적 강건성 연구 간의 용어 통일과 방법론적 융합을 이룩한다.

ABSTRACT

The same method that creates adversarial examples (AEs) to fool image-classifiers can be used to generate counterfactual explanations (CEs) that explain algorithmic decisions. This observation has led researchers to consider CEs as AEs by another name. We argue that the relationship to the true label and the tolerance with respect to proximity are two properties that formally distinguish CEs and AEs. Based on these arguments, we introduce CEs, AEs, and related concepts mathematically in a common framework. Furthermore, we show connections between current methods for generating CEs and AEs, and estimate that the fields will merge more and more as the number of common use-cases grows.

연구 동기 및 목표

. 이 논문은 반사적 설명(CEs)과 적대적 예외(AEs) 간의 개념적 혼동을 해결하고자 하며, 이 둘은 핵심 성질이 다름에도 불구하고 종종 혼동되기 때문이다.
CEs와 AEs의 용어와 수학적 체계를 하나의 수학적 프레임워크 안에서 통합하여 문헌 내의 명확성과 애매함을 줄이려 한다.
CE 생성 방법이 AEs 생성에 어떻게 기여할 수 있고, 반대로 AEs 생성 방법이 CEs 생성에 어떻게 기여할 수 있는지 조사한다. 특히 대출 및 이미지 분류와 같은 공통 응용 분야에서의 응용을 중심으로 한다.
원본 입력에 가까운 위치를 보장하지 못하는 점을 고려할 때, 예를 들어 대체 모델이나 민감도 분석을 사용해 CEs를 생성할 경우 기술적 오용의 위험이 있음을 강조한다.
XAI와 적대적 기계학습 간의 깊은 통합을 주장하며, 향후 연구를 이끄는 데 있어 공식적인 차이를 기반으로 하기를 제안한다.

제안 방법

. 이 논문은 다음 최적화 문제를 기반으로 한 통합된 수학적 프레임워크를 도입한다: argmin_x′∈X d(x, x′) + λ d′(f(x′), y_des), 이는 CEs와 AEs 모두를 뒷받는데 기초가 된다.
CEs는 원본 입력 x에 가까운 입력 x′(d(x, x′)를 최소화)이며, 원하는 올바른 예측 y_des를 낼 수 있도록 하는 것으로 공식적으로 정의된다 (d′(f(x′), y_des)를 최소화).
AEs는 원본 입력 x에 가까운 입력 x′이지만 오분류를 일으키는 경우로 정의된다. 즉, f(x′) ≠ y_true이며, 여기서 y_true는 진짜 레이블이다.
논문은 두 가지 핵심 기준에 따라 CEs와 AEs를 구분한다: (1) 목표 레이블(원하는 레이블 대 오분류 레이블), (2) 가까움에 대한 내성(CEs에서는 최대한의 가까움이 필수적이지만, AEs에서는 그렇지 않다).
기존의 CEs 및 AEs 생성 방법을 평가하여, 어떤 방법은 개념적으로 이식 가능하다는 것(예: 기울기 기반 최적화), 어떤 방법은 그렇지 않다는 것(예: 표본 데이터에서 CEs 생성에 사용되는 대체 모델)을 밝혀낸다.
논문은 원인 모델링이 진짜 레이블에 의존하지 않고 오분류를 체계화하는 데 유망한 길이라고 제안하며, AEs가 비인과적, 관련 없는 특성 변형을 악용할 수 있음을 시사한다.

실험 결과

연구 질문

RQ1. 반사적 설명과 적대적 예외는 수학적으로 어떻게 관련되어 있으며, 어떤 점에서 공식적으로 다를까?
RQ2특히 가까움과 목표 레이블 의미론에 관해 CEs와 AEs 간의 핵심 개념적 차이는 무엇인가?
RQ3CE 생성 방법을 AEs 생성에, 또는 반대로 AEs 생성 방법을 CE 생성에 적용할 수 있는 정도는 어느 정도이며, 개념적 또는 방법론적 결함 없이 가능할까?
RQ4기존의 CEs 생성 방법이 왜 원본 입력에 최대한 가까운 위치를 보장하지 못하는지, 그리고 설명력에 어떤 영향을 미치는가?
RQ5원인 모델링은 오분류의 정당성 여부를 구분할 수 있는 공식적 기반을 제공할 수 있으며, 이는 AEs 생성의 개념적 기초를 강화할 수 있는가?

주요 결과

. 동일한 최적화 문제로부터 반사적 설명과 적대적 예외가 유도되지만, 목적의 차이로 인해 둘은 공식적으로 다름: CEs는 원하는 올바른 레이블을 향해 최적화되며, AEs는 오분류를 목표로 한다.
원본 입력에 최대한 가까운 위치는 반사적 설명의 결정적 특징이지만, 많은 현재의 생성 방법(예: 민감도 분석, 대체 모델)은 이를 보장하지 못한다.
AE 문헌에서 유래한 기울기 기반 최적화 기법은 가까움을 자연스럽게 강제하므로, CE 생성에 개념적으로 이식 가능하다.
표본 모델 기반의 CEs 생성 방법은 대체 모델이 원본 모델과 충실하지 않으면 오해의 소지가 있는 설명을 낼 수 있으며, 특히 표본 데이터 환경에서 그러한 위험이 크다.
논문은 현재의 AEs 생성이 종종 정당성 없는 거리 척도에 의존하고 있으며, 거리 척도 자체보다도 모델이 인간이 견디는 개념을 학습하지 못하는 것이 AEs 취약성의 더 깊은 원인일 수 있음을 밝혀낸다.
원인 모델링은 오분류를 인과적 구조 위반으로 정의할 수 있는 유망한 공식적 길을 제공하며, 이는 더 강건한 AEs 탐지 및 CEs 검증의 기초가 될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.