QUICK REVIEW

[論文レビュー] Reverse KL-Divergence Training of Prior Networks: Improved Uncertainty and Adversarial Robustness

Andrey Malinin, Mark Gales|arXiv (Cornell University)|May 31, 2019

Adversarial Robustness in Machine Learning参考文献 37被引用数 69

ひとこと要約

本論文は、逆KL発散を用いた Prior Networks の訓練を提案し、不確実性のモデリングを改善し、OOD検出を向上させるとともに、適応型ホワイトボックス攻撃に対する頑健性を高める一般化 adversarial training アプローチを可能にします。

ABSTRACT

Ensemble approaches for uncertainty estimation have recently been applied to the tasks of misclassification detection, out-of-distribution input detection and adversarial attack detection. Prior Networks have been proposed as an approach to efficiently \emph{emulate} an ensemble of models for classification by parameterising a Dirichlet prior distribution over output distributions. These models have been shown to outperform alternative ensemble approaches, such as Monte-Carlo Dropout, on the task of out-of-distribution input detection. However, scaling Prior Networks to complex datasets with many classes is difficult using the training criteria originally proposed. This paper makes two contributions. First, we show that the appropriate training criterion for Prior Networks is the \emph{reverse} KL-divergence between Dirichlet distributions. This addresses issues in the nature of the training data target distributions, enabling prior networks to be successfully trained on classification tasks with arbitrarily many classes, as well as improving out-of-distribution detection performance. Second, taking advantage of this new training criterion, this paper investigates using Prior Networks to detect adversarial attacks and proposes a generalized form of adversarial training. It is shown that the construction of successful \emph{adaptive} whitebox attacks, which affect the prediction and evade detection, against Prior Networks trained on CIFAR-10 and CIFAR-100 using the proposed approach requires a greater amount of computational effort than against networks defended using standard adversarial training or MC-dropout.

研究の動機と目的

ニューラルネットワークにおける不確実性推定の動機づけと、誤分類・OOD入力・敵対的脅威下での信頼度の信頼性の必要性。
出力分布上のディリチ分布パラメータを持つ Prior Networks を導入し、エ Ensemble を効率的に模倣する。
Prior Networks に対して逆KL発散が適切な訓練基準であることを示し、多数クラスへのスケーラビリティとより良い OOD 検出を実現する。
逆KL基準を用いた一般化 adversarial training フレームワークを探求し、適応攻撃を Prior Networks に対して組み立てにくくする。

提案手法

出力分布上のディリチ分布をパラメータ化する Prior Networks を定義する。
Dirichlet ターゲットに対する forward KL と reverse KL の訓練基準を対比し、RKL がデータ不確実性が高い領域で単一の高精度モードを生み出すと主張する。
期待値の明示的な混合（幾何的混合 vs. 算術的混合）を用いた forward KL（従来の PN）と reverse KL（提案 PN-RKL）の損失式を導出・比較する。
補助損失なしで画像データセット上で PN-RKL を訓練し、ドメイン内精度と OOD 検出を評価する。
逆KL基準を用いて不確実性を形作る generalized adversarial training 損失を定式化し、敵対入力への対処を拡張的に評価する。
ターゲット PGD-MIM を用いた適応ホワイトボックス攻撃に対する頑健性を評価し、DNN、 adversarially trained DNN、MC-ドロップアウトのベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1逆KL発散は、クラス数が異なるデータセットに対して Prior Networks の適切な訓練信号を提供するか。
RQ2PN-RKL は PN-KL と比べて OOD 検出を向上させつつ分類性能を競争力に維持できるか。
RQ3PN-RKL は敵対的攻撃の検出を効果的に行い、適応型ホワイトボックス攻撃への頑健性を高められるか。
RQ4提案された adversarial training 定式化は Prior Networks への有効な攻撃の空間にどのような影響を与えるか。
RQ5複雑なデータセットでの異なる OOD 訓練データ選択が PN-RKL の限界にどう影響するか。

主な発見

PN-RKL はデータセット構造と一致する不確実性指標を生み出す：データが重なる領域で高いデータ不確実性、OOD 入力で高い知識不確実性。
合成データにおける高い不確実性では、PN-RKL は総不確実性とデータ不確実性・知識不確実性の分解を PN-KL よりも正確に行う。
PN-RKL は標準的な DNN やアンサンブルと同程度の分類誤差率を達成し得る一方、PN-KL はより複雑なデータセットで劣化する。
PN-RKL は OOD 検出の AUROC を PN-KL より改善し、適切な OOD データを用いた場合 CIFAR-10 / CIFAR-100 でアンサンブルに匹敵するか超える。
PN-RKL による adversarial training（beta_in および beta_adv 設定）は、適応型ホワイトボックス攻撃を従来の DNN、DNN-ADV、MC-ドロップアウト defenses よりも大幅に計算上難しくする。
適応攻撃の転移性が低下し、ブラックボックス攻撃は PN-RKL に対してしばしば失敗する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。