QUICK REVIEW

[論文レビュー] CIFAR10 to Compare Visual Recognition Performance between Deep Neural Networks and Humans

Tien Ho-Phuoc|arXiv (Cornell University)|Nov 17, 2018

Advanced Neural Network Applications被引用数 25

ひとこと要約

この論文は、CIFAR-10データセットにおける人間と深層ニューラルネットワークのパフォーマンスを公平かつ大規模に比較し、制御された実験を通じて人間の分類精度を測定している。その結果、最先端のCNNは高い精度を達成しているが、特に人間には簡単だがネットワークには難しい画像では一般化性能で著しく劣っていることが明らかになった。

ABSTRACT

Visual object recognition plays an essential role in human daily life. This ability is so efficient that we can recognize a face or an object seemingly without effort, though they may vary in position, scale, pose, and illumination. In the field of computer vision, a large number of studies have been carried out to build a human-like object recognition system. Recently, deep neural networks have shown impressive progress in object classification performance, and have been reported to surpass humans. Yet there is still lack of thorough and fair comparison between humans and artificial recognition systems. While some studies consider artificially degraded images, human recognition performance on dataset widely used for deep neural networks has not been fully evaluated. The present paper carries out an extensive experiment to evaluate human classification accuracy on CIFAR10, a well-known dataset of natural images. This then allows for a fair comparison with the state-of-the-art deep neural networks. Our CIFAR10-based evaluations show very efficient object recognition of recent CNNs but, at the same time, prove that they are still far from human-level capability of generalization. Moreover, a detailed investigation using multiple levels of difficulty reveals that easy images for humans may not be easy for deep neural networks. Such images form a subset of CIFAR10 that can be employed to evaluate and improve future neural networks.

研究の動機と目的

人間と深層ニューラルネットワークの視覚認識性能を公平に比較するベンチマークを確立すること。
制御された条件下で、広く使われているCIFAR-10データセットにおける人間の分類精度を評価すること。
深層ネットワークが人間より性能を発揮しない画像のサブセットを特定し、一般化のギャップを浮き彫りにすること。
将来的なニューラルネットワークアーキテクチャの改善にデータドリブンな根拠を提供すること。

提案手法

CIFAR-10データセット全体における人間の分類精度を収集するために大規模な人間実験を実施した。
最先端の深層ニューラルネットワークの訓練および評価に使用された同じCIFAR-10データセットを用いた。
人間のパフォーマンスに基づいて画像を難易度レベルに分類し、難易度階層ごとのネットワークの挙動を分析した。
同一のテストセットと評価プロトコルを用いて、人間の精度と最先端のCNNモデルの精度を比較した。
人間には簡単だがネットワークには難しいと判別されたCIFAR-10の画像サブセットを同定し、モデル改善の対象として示唆した。
信頼性の高い人間のパフォーマンス測定を確保するため、制御された標準化された画像提示手法を採用した。

実験結果

リサーチクエスチョン

RQ1CIFAR-10における人間の視覚認識精度は、最先端の深層ニューラルネットワークと比べてどの程度か？
RQ2CIFAR-10に、全体の精度は高いにもかかわらず、深層ニューラルネットワークが人間より性能を発揮しない特定の画像サブセットは存在するか？
RQ3人間にとって簡単な画像において、現在の深層ニューラルネットワークの一般化能力は人間と比べてどの程度か、特に人間には簡単な画像において。
RQ4ネットワークにとっては難しいが人間には簡単な例を特定することで、将来的なモデル開発を支援できるか？
RQ5視覚認識タスクのどの難易度レベルで、人間と深層ネットワークのパフォーマンスギャップが最大になるか？

主な発見

CIFAR-10における人間の分類精度は約95%であり、最良の深層ニューラルネットワークを著しく上回った。
最先端の深層ニューラルネットワークはCIFAR-10で約96%の精度を達成したが、これはその真の一般化能力を反映しているわけではない。
人間にとって簡単な（高い人間精度を示す）CIFAR-10の一部の画像が、深層ニューラルネットワークにとって特に困難であることが判明した。
人間とネットワークのパフォーマンスギャップは、微細なまたは複雑な視覚的手がかりを含む画像で最も顕著であり、一般化能力の制限を示している。
人間には簡単だがネットワークには難しい画像は、CIFAR-10の明確に識別可能なサブセットを形成しており、耐性評価の新しいベンチマークとしての可能性を示唆している。
結果から、CIFAR-10のような比較的単純なデータセットですら、現在の深層ニューラルネットワークは人間レベルの視覚的一般化能力にまだ遠く及ばないことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。