Skip to main content
QUICK REVIEW

[論文レビュー] Generalisation in humans and deep neural networks

Robert Geirhos, Carlos R. Medina Temme|arXiv (Cornell University)|Aug 27, 2018
Infrared Target Detection Methodologies参考文献 72被引用数 239
ひとこと要約

本研究は、3つの事前学習済みDNN(ResNet-152、GoogLeNet、VGG-19)と12種の画像歪みに対する人間の物体認識の頑健性を比較し、人間が未知の歪みに対してより一般化することを示す。歪みに直接訓練したDNNは、訓練済みの歪み内では高い性能を示すが、新たな歪みには一般化が乏しい。

ABSTRACT

We compare the robustness of humans and current convolutional deep neural networks (DNNs) on object recognition under twelve different types of image degradations. First, using three well known DNNs (ResNet-152, VGG-19, GoogLeNet) we find the human visual system to be more robust to nearly all of the tested image manipulations, and we observe progressively diverging classification error-patterns between humans and DNNs when the signal gets weaker. Secondly, we show that DNNs trained directly on distorted images consistently surpass human performance on the exact distortion types they were trained on, yet they display extremely poor generalisation abilities when tested on other distortion types. For example, training on salt-and-pepper noise does not imply robustness on uniform white noise and vice versa. Thus, changes in the noise distribution between training and testing constitutes a crucial challenge to deep learning vision systems that can be systematically addressed in a lifelong machine learning approach. Our new dataset consisting of 83K carefully measured human psychophysical trials provide a useful reference for lifelong robustness against image degradations set by the human visual system.

研究の動機と目的

  • 人間と現在のDNNが、訓練分布を超える幅広い画像歪みに対してどのように一般化するかを評価する。
  • 12種類の歪みにおける人間とDNNの頑健性の差を定量化する。
  • 歪んだ画像でDNNを訓練することが、歪み間の一般化を改善するかを評価する。
  • 画像劣化に対する生涯にわたる頑健性を測定した、慎重に整備された人間-ロボットのベンチマークデータセットを提供する。

提案手法

  • 人間と3つの事前学習済みDNN(ResNet-152、GoogLeNet、VGG-19)を、12の歪みで、ImageNetベースの16クラス・エントリーレベルカテゴリー課題で比較する。
  • 人間のフィードバックを制限するため、制御された200 msの提示時間と1/fノイズマスクを使用する。
  • 色彩変化、ノイズ(均一ノイズと塩胡椒ノイズ)、ブラー/高域/低域フィルタ、コントラスト、位相ノイズ、Eidolon歪み、回転など、12種の歪みに対する性能を評価する。
  • 歪んだ16クラスImageNet画像からゼロからネットワークを訓練し、歪みに特化した頑健性と歪み間の一般化をテストする。
  • 分類精度と応答分布のエントロピーを分析して、誤りパターンとバイアスを特徴づける。)

実験結果

リサーチクエスチョン

  • RQ1訓練中に見られなかったさまざまな画像劣化に対して、人間はDNNと比べてどれくらい頑健か?
  • RQ2歪みに訓練されたDNNは、他の見たことのない歪みに一般化するか?
  • RQ3歪んだ画像でDNNを訓練することで、訓練された歪みだけでなく複数の歪みに対する頑健性を改善できるか?
  • RQ4劣化条件下での人間とDNNの誤りパターンにはどのような差があるか?

主な発見

  • 信号強度が低下するにつれて、ほとんどの歪みにおいて人間はDNNより頑健である。
  • 歪みに訓練されたDNNは、訓練対象の歪みに対しては卓越しているが、他の歪みには一般化が乏しい。
  • 歪みでの訓練は、見たことのない歪みに頑健性を確実に移行することが少なく、より長い訓練や異なる戦略を必要とすることがある。
  • DNNは予測に歪み特有のバイアスを示す(例:強い均一ノイズ下でのボトルバイアス、位相ノイズ下での犬/鳥バイアス)。
  • すべての歪みのうち1つを除くすべての歪みに訓練した場合、8つの歪みには高い精度を達成するが、除外した歪みにはほぼ同じ程度の精度となる(塩胡椒ノイズと均一ノイズ)。
  • 歪みごとに訓練する専用の歪み別訓練体制は、訓練済み歪みのギャップを埋められるが、広範な歪み間の頑健性を達成するには寄与しない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。