QUICK REVIEW

[論文レビュー] Noise or Signal: The Role of Image Backgrounds in Object Recognition

Kai Xiao, Logan Engstrom|arXiv (Cornell University)|Jun 17, 2020

Domain Adaptation and Few-Shot Learning参考文献 27被引用数 59

ひとこと要約

本論文は、最先端の物体分類器が画像背景に依存している方法を分析し、前景と背景の信号を分離する合成データセットツールキットを導入し、背景が予測と頑健性に強く影響を与えることを示します。

ABSTRACT

We assess the tendency of state-of-the-art object recognition models to depend on signals from image backgrounds. We create a toolkit for disentangling foreground and background signal on ImageNet images, and find that (a) models can achieve non-trivial accuracy by relying on the background alone, (b) models often misclassify images even in the presence of correctly classified foregrounds--up to 87.5% of the time with adversarially chosen backgrounds, and (c) more accurate models tend to depend on backgrounds less. Our analysis of backgrounds brings us closer to understanding which correlations machine learning models use, and how they determine models' out of distribution performance.

研究の動機と目的

ImageNet様式のデータに対する背景信号が物体認識精度にどれだけ寄与するかを評価する。
画像内の前景と背景情報を分離するデータセットツールキットを開発する。
背景信号へのモデルの依存度と背景変化に対する頑健性を定量化する。
新しいアーキテクチャとトレーニング手法が導入される中で、モデルの精度と背景への依存度がどのように進化したかを調査する。

提案手法

前景/背景分割を伴う九クラスの粗粒度サブセットであるImageNet-9 (IN-9)を作成する。
前景と背景信号を切り離すためにIN-9の8つのバリエーションを生成する（例：Only-BG、No-FG、Mixed-Same、Mixed-Rand、Mixed-Next）。
IN-9LおよびIN-9のバリエーションで、複数のアーキテクチャ（例：ResNet-50、Wide-ResNet-50x2、MobileNet-v3、EfficientNet）を訓練・評価する。
BG-GapをMixed-SameとMixed-Randの精度低下として定義し、背景への依存を測定する。
敵対的な背景を検討し、前景クラスごとの敵対的成功率を算出する。
背景信号への依存を減らすためにMixed-Randでモデルを訓練し、頑健性を評価する。）

実験結果

リサーチクエスチョン

RQ1現代のモデルにおいて、画像背景は正しく分類するのにどの程度十分なのか？
RQ2IN-9のバリエーション全体で、前景と背景信号はモデルの予測にどのように寄与しているのか？
RQ3より正確なモデルは背景手掛かりにより頼るのか、頼らなくなるのか、またトレーニング手法は背景依存を低減できるのか？
RQ4敵対的に選択された背景に対してモデルはどれだけ脆弱か、背景耐性を強化する訓練はそれを緩和できるか？
RQ5ImageNetプリトレーニングとIN-9L訓練では背景依存はどのように進化してきたのか？

主な発見

背景だけで、背景のみのデータセットにおいても、ランダム以上の非自明な分類精度を達成できる。
BG-Gapが顕著で、背景信号が敵対的であったり前景と背景が不一致の場合に誤分類を引き起こす。
Originalデータセットで訓練した場合、約35%の画像が正しい分類のために背景情報を必要とする。
精度の高いモデルは背景相関をあまり利用しなくなる傾向があるか、背景変化に対して頑健になる一方で、背景信号は依然として存在し、事前訓練済みImageNetモデルは背景依存性が低いことを示す。
Mixed-Randで訓練すると背景依存が減り、モデルが前景寄りになるが、Originalデータでの総合精度が低下することがある。
敵対的背景は前景例の最大87.5%を誤分類させることがあり、分布外設定での脆弱性を浮き彫りにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。