QUICK REVIEW

[論文レビュー] Robust Out-of-distribution Detection for Neural Networks

Jiefeng Chen, Yixuan Li|arXiv (Cornell University)|Mar 21, 2020

Adversarial Robustness in Machine Learning参考文献 50被引用数 31

ひとこと要約

この論文は、現代のOOD検出器が、分布内外の入力双方に対する小さな敵対的摂動に対して脆弱であることを示し、ALOEという頑健な敵対的訓練手法を導入してOOD検出を改善する。

ABSTRACT

Detecting out-of-distribution (OOD) inputs is critical for safely deploying deep learning models in the real world. Existing approaches for detecting OOD examples work well when evaluated on benign in-distribution and OOD samples. However, in this paper, we show that existing detection mechanisms can be extremely brittle when evaluating on in-distribution and OOD inputs with minimal adversarial perturbations which don't change their semantics. Formally, we extensively study the problem of Robust Out-of-Distribution Detection on common OOD detection approaches, and show that state-of-the-art OOD detectors can be easily fooled by adding small perturbations to the in-distribution and OOD inputs. To counteract these threats, we propose an effective algorithm called ALOE, which performs robust training by exposing the model to both adversarially crafted inlier and outlier examples. Our method can be flexibly combined with, and render existing methods robust. On common benchmark datasets, we show that ALOE substantially improves the robustness of state-of-the-art OOD detection, with 58.4% AUROC improvement on CIFAR-10 and 46.59% improvement on CIFAR-100.

研究の動機と目的

入力が敵対的に摂動され得るオープンワールド展開における頑健なOOD検出を動機づける。
既存のOOD検出器が小さな意味論的摂動下で脆弱であることを示す。
インライアとアウトライアを用いた敵対的訓練を通じてOOD検出器を頑健化するALOEを提案する。
ALOEが頑健性を大幅に向上させつつ分類精度を維持する実証的証拠を提供する。
再現性と今後の研究を促進する再利用可能なコードベースを提供する。

提案手法

入力のエpsilonボール内で頑健なOOD検出と敵対的摂動を形式的に定義する。
ALOEを提案する：負対数尤度を最大化するインディストリビューション摂動と、均一分布へのKL発散を最大化するアウトライア摂動を含む敵対的訓練。
訓練をPGDを用いた投影勾配降下法で解くミンマックス最適化として位置づける。
ALOEを既存の検出器（例：MSP、ODIN）と統合して頑健性を高めることを許容する。
インライアを対象とするADVおよびインライア/アウトライアを組み合わせたAOEといった派生形を議論する。
再現性を支援する同梱コードを公開する。

実験結果

リサーチクエスチョン

RQ1分布内外の入力に対して意味を保った小さな敵対的摂動の下で、既存のOOD検出器は機能しなくなるか。
RQ2このような攻撃に対して、頑健な訓練パラダイム（ALOE）はOOD検出性能を大幅に改善できるか。
RQ3ALOEはODINなど他の検出器とどのように相互作用し、性能を改善する可能性があるか。
RQ4敵対的訓練がクリーンな（攻撃されていない）分類精度に与える影響は何か。
RQ5分類器を標的とする敵対的摂動を、OOD目的の下で分布内と見なすべき理由の洞察は何か。

主な発見

古典的なOOD検出器（MSP、ODIN、Mahalanobis、OE）は、敵対的摂動（epsilon = 1/255、m = 10）の下で著しく性能が低下する。
ALOEは頑健なOOD検出を大幅に改善し、例えば攻撃下でCIFAR-10でAUROCを最大58.4%、CIFAR-100で46.59%程度向上させる（従来手法と比較して）
ALOEはODINと組み合わせることでさらなる性能向上が見られ、クリーン精度を維持するか、ほぼ一致させることが多い。
f(x)を対象とする画像分類器に対する小さな摂動を含む敵対的例は、ロバストフレームワーク下ではむしろ分布内である傾向がある。
インライア摂動とKL発散ベースのアウトライア曝露を用いる頑健な訓練目的は、評価された派生形の中で最も強い頑健性向上をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。