QUICK REVIEW

[논문 리뷰] Smoothed Geometry for Robust Attribution

Zifan Wang, Haofan Wang|arXiv (Cornell University)|2020. 06. 01.

Adversarial Robustness in Machine Learning인용 수 12

한 줄 요약

이 논문은 깊이 신경망에서 기울기 기반 특성 할당의 강건성을 향상시키기 위해 리프시츠 연속성 조건을 모델 기울기에 도입함으로써, 유사한 입력에 대해 일관되지 않은 설명을 생성하는 적대적 편향에 대한 취약성을 크게 감소시키는 정규화 및 확률적 스무딩 방법을 제안한다. 실험 결과, 다양한 이미지 모델에서 특성 할당의 강건성이 일관되게 향상됨을 보였다.

ABSTRACT

Feature attributions are a popular tool for explaining the behavior of Deep Neural Networks (DNNs), but have recently been shown to be vulnerable to attacks that produce divergent explanations for nearby inputs. This lack of robustness is especially problematic in high-stakes applications where adversarially-manipulated explanations could impair safety and trustworthiness. Building on a geometric understanding of these attacks presented in recent work, we identify Lipschitz continuity conditions on models' gradient that lead to robust gradient-based attributions, and observe that smoothness may also be related to the ability of an attack to transfer across multiple attribution methods. To mitigate these attacks in practice, we propose an inexpensive regularization method that promotes these conditions in DNNs, as well as a stochastic smoothing technique that does not require re-training. Our experiments on a range of image models demonstrate that both of these mitigations consistently improve attribution robustness, and confirm the role that smooth geometry plays in these attacks on real, large-scale models.

연구 동기 및 목표

유사한 입력에 대해 일관되지 않은 설명을 생성하는 적대적 편향에 취약한 기울기 기반 특성 할당의 취약성을 해결하기 위해.
특성 할당 방법의 강건성을 보장하는 모델 기울기의 리프시츠 연속성 조건을 규명하기 위해.
재학습 없이도 모델 기하 구조를 매끄럽게 만드는 실용적이고 저비용의 정규화 및 스무딩 기법을 개발하기 위해.
다양한 방법 간의 특성 할당 공격의 이식 가능성과 모델의 매끄러움 사이의 관계를 탐구하기 위해.

제안 방법

딥 네트워크 기울기의 리프시츠 연속성을 장려하는 웨이트 디케이 기반 정규화를 제안한다.
추론 중에 입력 노이즈를 적용하여 모델의 출력 및 기울기 행동을 스무딩하는 확률적 스무딩 기법을 도입한다.
적대적 공격의 기하 분석을 통해 모델의 매끄러움과 특성 할당 강건성 간의 관계를 규명한다.
구조적 변경 없이도 표준 이미지 분류 모델에 제안된 방법을 적용한다.
작은 입력 변화에 대한 변동에 대한 특성 할당 안정성에 기반해 강건성을 평가한다.

실험 결과

연구 질문

RQ1깊이 신경망의 어떤 기하적 성질이 강건한 기울기 기반 특성 할당을 이끌어내는가?
RQ2모델 기울기에서 리프시츠 연속성이 적대적 편향 하에서 특성 할당의 안정성에 어떤 영향을 미치는가?
RQ3매끄러운 모델 기하 구조는 다양한 특성 할당 방법 간의 적대적 공격 이식 가능성을 감소시킬 수 있는가?
RQ4실제로 정규화 및 확률적 스무딩이 특성 할당 강건성을 어느 정도 향상시킬 수 있는가?

주요 결과

제안된 정규화 방법은 다양한 이미지 모델에서 특성 할당 강건성을 크게 향상시켜, 작은 입력 편향 하에서 설명의 분리 현상을 감소시켰다.
확률적 스무딩은 재학습이나 구조적 변경 없이도 강력한 강건성 향상을 제공한다.
더 매끄러운 기하 구조를 가진 모델은 다양한 특성 할당 방법 간의 적대적 공격 이식 가능성을 감소시켰다.
기하 분석을 통해 기울기에서 리프시츠 연속성이 강건한 특성 할당을 가능하게 하는 핵심 요소임을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.