Skip to main content
QUICK REVIEW

[論文レビュー] Partial success in closing the gap between human and machine vision

Robert Geirhos, Kantharaju Narayanappa|arXiv (Cornell University)|Jun 14, 2021
Domain Adaptation and Few-Shot Learning参考文献 94被引用数 63
ひとこと要約

この研究は、アウト・オブ・ディストリビューションの歪みに対する頑健性が、特にデータ量が多く、トランスフォーマー系のモデルでは、ますます人間と同等かそれを超える水準に近づいている一方で、人間と機械の画像レベルのエラーパターンには依然としてギャップが存在することを示している。17のOODデータセットと85,120件の試行からなる大規模な心理物理的ベンチマークは、さまざまなモデルファミリーを評価し、人間に近い視覚へ向けた進展を定量化する。

ABSTRACT

A few years ago, the first CNN surpassed human performance on ImageNet. However, it soon became clear that machines lack robustness on more challenging test cases, a major obstacle towards deploying machines "in the wild" and towards obtaining better computational models of human visual perception. Here we ask: Are we making progress in closing the gap between human and machine vision? To answer this question, we tested human observers on a broad range of out-of-distribution (OOD) datasets, recording 85,120 psychophysical trials across 90 participants. We then investigated a range of promising machine learning developments that crucially deviate from standard supervised CNNs along three axes: objective function (self-supervised, adversarially trained, CLIP language-image training), architecture (e.g. vision transformers), and dataset size (ranging from 1M to 1B). Our findings are threefold. (1.) The longstanding distortion robustness gap between humans and CNNs is closing, with the best models now exceeding human feedforward performance on most of the investigated OOD datasets. (2.) There is still a substantial image-level consistency gap, meaning that humans make different errors than models. In contrast, most models systematically agree in their categorisation errors, even substantially different ones like contrastive self-supervised vs. standard supervised models. (3.) In many cases, human-to-model consistency improves when training dataset size is increased by one to three orders of magnitude. Our results give reason for cautious optimism: While there is still much room for improvement, the behavioural difference between human and machine vision is narrowing. In order to measure future progress, 17 OOD datasets with image-level human behavioural data and evaluation code are provided as a toolbox and benchmark at: https://github.com/bethgelab/model-vs-human/

研究の動機と目的

  • 人間と機械 vision の頑健性のギャップが、out-of-distributionデータで狭まっているかを評価する。
  • 異なるMLの発展(目的関数、アーキテクチャ、データ量)が人間–機械の整合性にどのように影響するかを評価する。
  • この領域の今後の進展を追跡するためのベンチマークツ toolboxおよびデータセットを提供する。

提案手法

  • distortion robustness をテストするよう設計された17のOODデータセットで、90人の人間観察者から85,120件の心理物理実験を収集した。
  • CNN、自己教師あり、対抗訓練、ビジョン・トランスフォーマー、データ規模/ノイズラベル regimes を含む52モデルを比較した。
  • モデルをOOD精度と3つの整合性指標:Accuracy difference A(m)、Observed consistency O(m)、Error consistency E(m)で評価した。
  • 新しいモデルを人間データと比較してベンチマークするために、モデル対人間のツールボックスを公開した。
  • 人間-モデルの比較可能性のために、WordNet階層を用いてImageNet 1000クラスを16カテゴリにマッピングした。

実験結果

リサーチクエスチョン

  • RQ1現代のMLモデルは、広範なOOD条件で人間と比較した場合、歪みに対する頑健性のギャップを縮めているのか。
  • RQ2目的関数、アーキテクチャ、トレーニングデータのスケールは、画像全体で人間–機械の整合性にどのように影響するのか。
  • RQ3OOD条件下で個々の画像のエラーパターンにおいて、機械と人間はどの程度同じか、または異なるか。

主な発見

  • 大規模データで訓練された最良のモデルは、ほとんどのOODデータセットで人間の前方伝搬精度に匹敵するか超える。
  • 依然として画像レベルの大きな一貫性のギャップが残っており、モデルと人間はしばしば異なる画像で誤りを犯す。ただしデータ量が豊富なモデルは、いくつかのデータセットでこのギャップを狭めることができる。
  • 自己教師型モデルは、監督付きベースラインと比べて頑健性の向上が限られており、顕著な改善は主にデータ拡張の選択に起因する。
  • 対抗訓練されたモデルは頑健性を高めるが、誤対向摂動に対してより脆弱になる可能性があり、テクスチャバイアスが強くなる傾向がある。
  • ビジョン・トランスフォーマーと大規模データはOOD性能を大幅に向上させ、CLIPは一部の指標でほぼ人間と同等のエラーパターンを達成している。
  • 本論文は、今後の進展をベンチマークするツ toolboxと、17のOODデータセットを提供し、人間–機械の行動整合性を定量化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。