[論文レビュー] Benchmarking Neural Network Robustness to Common Corruptions and Surface Variations
この論文は、ImageNet-Cを汚損耐性のために、Icons-50を表面変動耐性のために導入し、現代的なネットをベンチマークし、クリーン精度だけでなく耐性を向上させる手法を提案します。
In this paper we establish rigorous benchmarks for image classifier robustness. Our first benchmark, ImageNet-C, standardizes and expands the corruption robustness topic, while showing which classifiers are preferable in safety-critical applications. Unlike recent robustness research, this benchmark evaluates performance on commonplace corruptions not worst-case adversarial corruptions. We find that there are negligible changes in relative corruption robustness from AlexNet to ResNet classifiers, and we discover ways to enhance corruption robustness. Then we propose a new dataset called Icons-50 which opens research on a new kind of robustness, surface variation robustness. With this dataset we evaluate the frailty of classifiers on new styles of known objects and unexpected instances of known classes. We also demonstrate two methods that improve surface variation robustness. Together our benchmarks may aid future work toward networks that learn fundamental class structure and also robustly generalize.
研究の動機と目的
- 画像分類器の頑健性に対する一般的な腐敗・表面変動に対する厳密なベンチマークを定義する。
- ImageNet-Cを作成して75の摂動(15種×5程度)にわたる腐敗耐性を標準化する。
- Icons-50を作成してスタイルとサブタイプの表面変動耐性を研究する。
- 現在のアーキテクチャと耐性強化手法をこれらのベンチマークで評価する。
- 精度を犠牲にすることなく頑健性を向上させる手法を提案する。
提案手法
- ImageNet-Cを導入し、15種類の腐敗、各5つの程度を適用し、ImageNet検証画像に適用する。
- Corruption ErrorとMean Corruption Error(mCE)、およびCross-type比較のためのRelative Corruption ErrorとRelative mCEを定義する。
- AlexNet、VGG variants、ResNet、DenseNet、ResNeXt、Multigrid、MSDNetなどの広範なアーキテクチャをImageNet-C上で評価する。
- 安定性トレーニング、ノイズ除去、ヒストグラム均等化などの頑健性向上手法を用いた実験を行い、その影響を分析する。
- Multigrid、MSDNet、DenseNet、ResNeXtなどのマルチスケールおよび特徴量集約型ネットワークが腐敗耐性に与える影響を調査する。
- Icons-50データセットを開発して表面変動耐性(スタイルおよびサブタイプ耐性)を研究し、評価プロトコルを提案する。
- Shake-Shake正則化とマルチスケールネットワークによる表面変動耐性の向上を探る。
実験結果
リサーチクエスチョン
- RQ1一般的な画像の腐敗は、標準的なアーキテクチャにおけるトップ-1精度にどのように影響するか?
- RQ2アーキテクチャの改善は腐敗耐性を向上させるのか、それとも耐性は主にクリーン精度の向上と結びついているのか?
- RQ3前処理や訓練時の手法は、75のImageNet-C腐敗に対する頑健性を意味のある程度改善できるか?
- RQ4ノイズと表面変動に対する頑健性に対するマルチスケールおよび特徴量集約型アーキテクチャの影響は?
- RQ5Icons-50で検証されるような見たことのないスタイルやサブタイプなどの表面変動に対して、ネットワークはどれほど頑健か?
主な発見
| ネットワーク | エラー | mCE | ガウス | ショット | インパルス | 焦点外れ | ガラス | 動き | ズーム | 雪 | 霜 | 霧 | 明るさ | コントラスト | エラスティック | 画素 | JPEG |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| AlexNet | 43.5 | 100.0 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 100 |
| SqueezeNet | ? | ? | ? | ? | ? | ? | ? | ? | ? | ? | ? | ? | ? | ? | ? | ? | ? |
| VGG-11 | 31.0 | 93.5 | 97 | 97 | 100 | 92 | 99 | 93 | 91 | 92 | 91 | 84 | 75 | 86 | ? | ? | ? |
| VGG-19 | 27.6 | 88.9 | 89 | 91 | 95 | 89 | 98 | 90 | 90 | 89 | 86 | 75 | 68 | 80 | ? | ? | ? |
| VGG-19+BN | 25.8 | 81.6 | 82 | 83 | 88 | 82 | 94 | 84 | 86 | 80 | 78 | 69 | 61 | 74 | ? | ? | ? |
| ResNet-18 | 30.2 | 84.7 | 87 | 88 | 91 | 84 | 91 | 87 | 89 | 86 | 84 | 78 | 69 | 78 | ? | ? | ? |
| ResNet-50 | 23.9 | 76.7 | 80 | 82 | 83 | 75 | 89 | 78 | 80 | 78 | 75 | 66 | 57 | 71 | ? | ? | ? |
- ImageNet-Cは、アーキテクチャ間で腐敗耐性の控えめな改善を示しており、相対的な耐性は主にクリーン精度の利得と一致する。
- Mean Corruption Error (mCE)はアーキテクチャの進歩とともに増加するが、Relative mCEは多くの場合AlexNetレベル付近にとどまり、固有の頑健性 gainsが限られる。
- ヒストグラム均等化とマルチスケール/大規模アーキテクチャは、クリーン精度を犠牲にすることなくImageNet-Cで顕著な頑健性の利得を提供する。
- 安定性トレーニングと入力ノイズ除去は実験でImageNet-Cの頑健性を改善せず、ノイズ除去は時に性能を悪化させた。
- Shake-Shake正則化とマルチスケールネットワーク(Multigrid、MSDNet)はIcons-50でスタイル耐性とサブタイプ耐性の双方を改善する。より大きな特徴量集約は、純粋な深さの成長を超えた頑健性を一般に高める。
- Icons-50は、現在のモデルがスタイル耐性(例:見たことのないアイコン源)とサブタイプ耐性(保持していないサブタイプ)に苦戦することを示しており、表面変動耐性は腐敗耐性とは異なる課題であることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。