QUICK REVIEW

[論文レビュー] Towards Frequency-Based Explanation for Robust CNN

Zifan Wang, Yilin Yang|arXiv (Cornell University)|May 6, 2020

Adversarial Robustness in Machine Learning参考文献 25被引用数 24

ひとこと要約

本論文は、入力画像の異なる周波数成分がCNN予測にどの程度寄与しているかを定量化する周波数ベースの説明手法、Occluded Frequencyを導入する。標準モデルは高周波数特徴に強く依存しており、敵対的攻撃に対して脆弱であることが示され、逆に敵対的訓練を経た堅牢なモデルは低周波数成分への依存を強めることで、微小な摂動に対して優れた耐性を示す。

ABSTRACT

Current explanation techniques towards a transparent Convolutional Neural Network (CNN) mainly focuses on building connections between the human-understandable input features with models' prediction, overlooking an alternative representation of the input, the frequency components decomposition. In this work, we present an analysis of the connection between the distribution of frequency components in the input dataset and the reasoning process the model learns from the data. We further provide quantification analysis about the contribution of different frequency components toward the model's prediction. We show that the vulnerability of the model against tiny distortions is a result of the model is relying on the high-frequency features, the target features of the adversarial (black and white-box) attackers, to make the prediction. We further show that if the model develops stronger association between the low-frequency component with true labels, the model is more robust, which is the explanation of why adversarially trained models are more robust against tiny distortions.

研究の動機と目的

周波数成分がCNN意思決定およびモデルの耐性に果たす役割を調査すること。
高い性能を示すにもかかわらず、標準CNNが人間には見えない敵対的攻撃に対してなぜ脆弱であるかを特定すること。
各周波数帯の寄与度を定量化する周波数アトリビューション手法を開発すること。
周波数ベースの分析を通じて、敵対的訓練を経たモデルの耐性を説明すること。
周波数ドメインにおける入力信号表現と耐性におけるモデル行動のギャップを埋めること。

提案手法

著者らは、入力画像を周波数スペクトル全体にわたって周波数成分に分解するために離散フーリエ変換（DFT）を用いる。
個々の周波数帯をゼロ化することで予測の変化を測定し、出力信頼度の変動を評価する、Occluded Frequencyと呼ばれるアトリビューション手法を提案する。
各周波数成分のアトリビューションスコアは、系統的にそれらを除去してモデルの信頼度の低下を測定することで計算される。
CIFAR-10上で標準モデルと敵対的訓練を経たモデルの間でアトリビューションスコアを比較し、周波数依存性の変化を分析する。
敵対的攻撃における摂動を分析し、大部分の歪みが高周波数帯に集中していることを示す。
最も低い（最も目立つ）周波数成分に基づいて、摂動サイズの理論的下限を確立する。

実験結果

リサーチクエスチョン

RQ1入力画像の異なる周波数成分は、CNNの最終予測にどの程度寄与しているか？
RQ2なぜ標準CNNは人間には見えない敵対的攻撃に対して脆弱なのか？
RQ3敵対的訓練を経たモデルは、標準モデルと比較して高周波数成分への依存をどの程度減らしているか？
RQ4周波数ベースのアトリビューションは、敵対的訓練を経たモデルの耐性を説明できるか？
RQ5敵対的攻撃は主に高周波数成分を標的にしているのか？もしそうなら、なぜこれがモデルの脆弱性を引き起こすのか？

主な発見

標準CNNは、人間には見えにくいが微小な摂動に対して極めて感受性の高い高周波数成分に強く依存して予測を行っている。
白箱および黒箱の敵対的攻撃は、主に高周波数成分を歪ませており、モデルの高周波数への過剰依存を悪用している。
Occluded Frequency手法はアトリビューションを効果的に定量化でき、標準モデルでは高周波数成分がしばしば最も高いアトリビューションスコアを示していることが明らかになった。
敵対的訓練を経た堅牢なモデルは、中間および高周波数成分へのアトリビューションを顕著に低減し、低周波数特徴に注目を向けるようになっている。
低周波数へのアトリビューションシフトは、耐性の向上と強く相関しており、敵対的訓練を経たモデルが微小な摂動に耐性を持つ理由を説明している。
摂動サイズの理論的下限は、最も低い（最も目立つ）周波数成分によって決定され、人間による検出を避けるためにそれらを変更するのは困難である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。