[論文レビュー] The Origins and Prevalence of Texture Bias in Convolutional Neural Networks
本論文は、ImageNetで訓練されたCNNが形状よりテクスチャを好む理由を調査し、このバイアスの大半がデータ拡張によって生じることを示し、自然主義的な拡張が形状ベースの分類を促進し、分布外性能を改善できることを示している。
Recent work has indicated that, unlike humans, ImageNet-trained CNNs tend to classify images by texture rather than by shape. How pervasive is this bias, and where does it come from? We find that, when trained on datasets of images with conflicting shape and texture, CNNs learn to classify by shape at least as easily as by texture. What factors, then, produce the texture bias in CNNs trained on ImageNet? Different unsupervised training objectives and different architectures have small but significant and largely independent effects on the level of texture bias. However, all objectives and architectures still lead to models that make texture-based classification decisions a majority of the time, even if shape information is decodable from their hidden representations. The effect of data augmentation is much larger. By taking less aggressive random crops at training time and applying simple, naturalistic augmentation (color distortion, noise, and blur), we train models that classify ambiguous images by shape a majority of the time, and outperform baselines on out-of-distribution test sets. Our results indicate that apparent differences in the way humans and ImageNet-trained CNNs process images may arise not primarily from differences in their internal workings, but from differences in the data that they see.
研究の動機と目的
- ImageNetで訓練されたCNNにおけるテクスチャ偏りが、アーキテクチャや訓練手順に本質的なものなのか、それとも主に訓練データに起因するものなのかを評価する。
- さまざまなデータ拡張、訓練目的、アーキテクチャがテクスチャ偏りにどのような影響を与えるかを定量化する。
- 多様な分布でテクスチャ偏りを低減し、形状ベースの分類を改善する実用的な拡張戦略を特定する。
- 判断がテクスチャに依存している場合でも、隠れ表現に形状情報が存在するかを調べる。
提案手法
- 形状とテクスチャが曖昧なデータセット(GST、Navon、ImageNet-C)上でCNNを訓練し、形状分類とテクスチャ分類のパフォーマンスを比較する。
- 異なるデータ拡張(ランダムクロップ対センタークロップ、カラー歪み、ブラー、ノイズ、Sobelフィルタリング)を用いた訓練がテクスチャ偏りにどのように影響するかを評価する。
- さまざまな訓練目的(教師あり対自己教師あり:Rotation、Exemplar、BigBiGAN、SimCLR)と基本アーキテクチャ(AlexNet、ResNet-50)をテストする。
- GST刺激を用いて形状バイアスを測定し、線形分類器によって隠れ層からどの程度の形状/テクスチャ情報がデコード可能かを評価する。
- モデル間でのImageNet精度と観測される形状/テクスチャバイアスの関係を分析する。
実験結果
リサーチクエスチョン
- RQ1ImageNetで訓練されたCNNのテクスチャ偏りは、主に帰納的バイアスによるものなのか、それとも訓練データ自体によるものなのか?
- RQ2データ拡張、訓練目的、アーキテクチャはテクスチャ偏りにどのような影響を与えるのか?
- RQ3自然主義的な拡張はテクスチャ偏りを低減し、分布外データで形状ベースの分類を改善できるか?
- RQ4モデルが分類にテクスチャを優先していても、隠れ表現から形状情報を回収できるか?
主な発見
- 曖昧なデータセットで訓練されたCNNは、テクスチャと同じくらい形状で分類することを学習でき、バイアスがアーキテクチャの特性だけではないことを示している。
- ランダムクロップ拡張はテクスチャ偏りを増加させ、センタークロップおよび自然主義的拡張(カラー歪み、ブラー、ノイズ、Sobelフィルタリング)はテクスチャ偏りを低減する。
- テクスチャ偏りを減らす拡張は相乗効果を持ち、非自然主義的なスタイル転送技術を用いなくても形状偏りモデルを生み出せることがある。
- 自己教師あり学習の目的はテクスチャ偏りに影響を与えるが、拡張がより大きな役割を果たすことが多い;いくつかの目的(例:Rotation)は教師ありのベースラインに比べてテクスチャ偏りを減少させる。
- ImageNet精度が高いアーキテクチャはテクスチャ偏りが小さい傾向にあるが、人間の視覚に合わせて設計されたニューラルアーキテクチャ(Self-attentionを用いるもの)では、標準のCNNと一貫してテクスチャ偏りが異なるとは限らない。
- 形状情報はテクスチャ偏りのあるモデルの最終層からデコード可能であり、初期層では形状のデコード可能性がテクスチャを上回る場合もあり、後半の層で情報が失われていることを示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。