[論文レビュー] Benchmarking Neural Network Robustness to Common Corruptions and Perturbations
ImageNet-CとImageNet-Pベンチマークを導入し、一般的な汚損・摂動に対する画像分類器の頑健性を測定し、アーキテクチャの影響を分析し、頑健性の向上を実証します。
In this paper we establish rigorous benchmarks for image classifier robustness. Our first benchmark, ImageNet-C, standardizes and expands the corruption robustness topic, while showing which classifiers are preferable in safety-critical applications. Then we propose a new dataset called ImageNet-P which enables researchers to benchmark a classifier's robustness to common perturbations. Unlike recent robustness research, this benchmark evaluates performance on common corruptions and perturbations not worst-case adversarial perturbations. We find that there are negligible changes in relative corruption robustness from AlexNet classifiers to ResNet classifiers. Afterward we discover ways to enhance corruption and perturbation robustness. We even find that a bypassed adversarial defense provides substantial common perturbation robustness. Together our benchmarks may aid future work toward networks that robustly generalize.
研究の動機と目的
- 安全 Critical applications のために現実世界の汚損と摂動に焦点を当て、最悪の敵対的ケースを超えるロバスト性を促進する。
- モデル間で公正かつ比較可能な頑健性評価を可能にする標準化ベンチマーク(ImageNet-CとImageNet-P)を作成する。
- アーキテクチャの変更や頑健性を高める技術が汚損・摂動頑健性に与える影響を評価する。
- 敵対的防御と一般的な摂動との相互作用を探り、頑健性を向上させつつ精度を犠牲にしない方法を特定する。
提案手法
- ImageNet-Cは75の汚損に対して5段階の severity レベルの平均性能として汚損頑健性を定義する。
- ImageNet-Pは摂動列とFlip Rate (FR)やTop-5 Distance (T5D) のような指標を用いて摂動頑健性を定義する。
- 汚損にはCE、Relative Corruption Error、mean CE (mCE)、Relative mCE、摂動にはFR、mean FR (mFR)、Top-5 Distance (T5D)、mean Top-5 Distance (mT5D) の標準化指標を提案する。
- ImageNet-Cは4つのカテゴリ(ノイズ、ブラー、ウェザー、デジタル)にわたる15種類の汚損を5つのseverityで構成し、ImageNet-Pは一般的な摂動を通じた時間的摂動系列を作成する。
- AlexNet、SqueezeNet、VGG、ResNet、DenseNet、ResNeXt の各アーキテクチャを評価し、汚損および摂動頑健性を比較する。
- ヒストグラム均等化(CLAHE)、マルチスケールネットワーク(Multigrid、MSDNet)、より大きな特徴量集約ネットワーク(DenseNet、ResNeXt)、敵対的ロジットペアリング(Adversarial Logit Pairing)などの頑健化手法を用いて、クロス頑健性効果を示す。
実験結果
リサーチクエスチョン
- RQ1現代のアーキテクチャはImageNet-CでのmCEとRelative mCEの観点で汚損頑健性においてどのように異なるか?
- RQ2ImageNet-PでのmFRとmT5Dによって分類器は一般的な摂動にどれだけ頑健か?
- RQ3汚損の頑健化が摂動頑健化にも寄与するか、またクリーン精度とのトレードオフはあるか?
- RQ4 worst-case 摂動を対象とする敵対的防御は一般的な摂動・汚損の性能を改善するか?
- RQ5どのアーキテクチャや前処理戦略が汚損・摂動頑健性に最大の効果をもたらすか?
主な発見
| ネットワーク | 誤差 | mCE | ガウス | ショット | インパルス | Defocus | Glass | Motion | Zoom | Snow | Frost | Fog | Bright | Contrast | Elastic | Pixel | JPEG |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| AlexNet | 43.5 | 100.0 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 |
| SqueezeNet | 41.8 | 104.4 | 107 | 106 | 105 | 100 | 103 | 101 | 100 | 101 | 103 | 97 | 97 | 98 | 106 | 109 | 134 |
| VGG-11 | 31.0 | 93.5 | 97 | 97 | 100 | 92 | 99 | 93 | 91 | 92 | 91 | 84 | 75 | 86 | 97 | 107 | 100 |
| VGG-19 | 27.6 | 88.9 | 89 | 91 | 95 | 89 | 98 | 90 | 90 | 89 | 86 | 75 | 68 | 80 | 97 | 102 | 94 |
| VGG-19+BN | 25.8 | 81.6 | 82 | 83 | 88 | 82 | 94 | 84 | 86 | 80 | 78 | 69 | 61 | 74 | 94 | 85 | 83 |
| ResNet-18 | 30.2 | 84.7 | 87 | 88 | 91 | 84 | 91 | 87 | 89 | 86 | 84 | 78 | 69 | 78 | 90 | 80 | 85 |
| ResNet-50 | 23.9 | 76.7 | 80 | 82 | 83 | 75 | 89 | 78 | 80 | 78 | 75 | 66 | 57 | 71 | 85 | 77 | 77 |
- AlexNetからResNetへ、相対的な意味で汚損頑健性はほとんど改善せず(Relative mCEはしばしばAlexNetより悪い)、頑健性のギャップが大きい。
- 汚損頑健性は摂動頑健性と必ずしも連動せず、汚損頑健性が高くても単純な摂動で不安定になることがある。
- ResNet-50に適用した場合、CLAHE前処理は頑健性を控えめに向上させる。
- MultigridとMSDNetのマルチスケールアーキテクチャは汚損頑健性を改善し、ノイズ入力でMultigridがResNet-50よりも低いmCEを示す。
- DenseNetsとResNeXts(特徴量集約)は汚損頑健性と摂動頑健性の大きな改善をもたらす;大きなモデルは一般に頑健性が高い傾向。
- Adversarial Logit Pairing(ALP)防御は敵対的頑健性を目的としつつ、敵対的頑健性が限られている場合でも一般的な摂動頑健性(mFRとmT5D)に顕著な利得を提供する。
- ImageNet画像のスタイライズ(Stylized-ImageNet)はmCEを低下させ、テクスチャ偏向の変化が頑健性を改善する可能性を示唆する。
- 全体として、頑健性の改善はクリーン精度の向上と併存またはそれを上回ることが多く、精度と頑健性の厳密なトレードオフという概念に異議を呈する。
- 本論文は公正な比較を可能にし、結果のチートを避けるための厳密で標準化されたベンチマークスイートを導入する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。