Skip to main content
QUICK REVIEW

[論文レビュー] Robustness of Object Recognition under Extreme Occlusion in Humans and Computational Models

Hongru Zhu, Peng Tang|arXiv (Cornell University)|May 11, 2019
Image Processing Techniques and Applications参考文献 20被引用数 33
ひとこと要約

本論文は、人間が極端な現実世界の遮蔽に対して非常に頑健である一方、CNNは遅れをとることを示す。2段階の構成モデルが極端な遮蔽下で人間に近い頑健性を示す。

ABSTRACT

Most objects in the visual world are partially occluded, but humans can recognize them without difficulty. However, it remains unknown whether object recognition models like convolutional neural networks (CNNs) can handle real-world occlusion. It is also a question whether efforts to make these models robust to constant mask occlusion are effective for real-world occlusion. We test both humans and the above-mentioned computational models in a challenging task of object recognition under extreme occlusion, where target objects are heavily occluded by irrelevant real objects in real backgrounds. Our results show that human vision is very robust to extreme occlusion while CNNs are not, even with modifications to handle constant mask occlusion. This implies that the ability to handle constant mask occlusion does not entail robustness to real-world occlusion. As a comparison, we propose another computational model that utilizes object parts/subparts in a compositional manner to build robustness to occlusion. This performs significantly better than CNN-based models on our task with error patterns similar to humans. These findings suggest that testing under extreme occlusion can better reveal the robustness of visual recognition, and that the principle of composition can encourage such robustness.

研究の動機と目的

  • 極端な現実世界の遮蔽に対する人間と計算モデルの頑健性を評価する。
  • 一定のマスク遮蔽に対する頑健性が現実の遮蔽状況へ伝搬するかを評価する。
  • 遮蔽された車両画像に対してCNNs、Hopfield-CNNハイブリッド、そして構成的な2段階モデルを比較する。
  • 物体の構成原理が遮蔽耐性を改善するかを調査する。

提案手法

  • 現実の遮蔽物を含む高度に遮蔽された車両画像のデータセットにおける人間の性能を収集する。
  • Occlusion に対応する適応を施したCNN(AlexNet、ResNet、VGG16)を評価する。
  • fc7特徴量で訓練したCNN+Hopfieldハイブリッドモデルをテストする。
  • 部分検出と空間ピラミッドプーリングを用いた空間投票を組み合わせた2段階の構成モデルを提案・評価する。
  • 人間とモデルの表現を比較するためにカテゴリレベルの混同行列と表現的不一致行矩を用いる。

実験結果

リサーチクエスチョン

  • RQ1人間は現実世界で高度に遮蔽された対象を、遮蔽物が現物のオブジェクトであり複雑な背景である場合に認識できるか。
  • RQ2CNNとハイブリッドモデルは人間と同等の極端な遮蔽耐性を示すか。
  • RQ3物体の部位と構成的構造を活用して遮蔽耐性を高められるか。
  • RQ4一定マスク遮蔽耐性は現実の遮蔽耐性を予測するか。
  • RQ5極端な遮蔽下での他モデルと人間の誤りパターンをどう比較できるか。

主な発見

人間/モデル遮蔽なし遮蔽あり
人間-93.3%
AlexNet89.8%50.0%
ResNet90.1%54.0%
VGG1694.7%62.6%
AlexNet+Hopfield77.7%46.0%
Two-stage Voting (Ours)92.9%67.0%
Ablation 191.2%47.5%
Ablation 289.9%58.9%
  • 人間は極端な遮蔽下で高い認識精度を示し、強い頑健性を示す。
  • CNNは遮蔽なしでは高性能だが、極端な遮蔽下での頑健性が低い。
  • Hopfield強化CNNは一定のマスク遮蔽下で性能を改善するが、極端な遮蔽耐性の改善には寄与しない。
  • 部分検出と空間投票を用いた2段階の構成モデルは、極端な遮蔽下で67.0%の精度を達成し、この設定でCNNやハイブリッドモデルを上回る。
  • この構成モデルは人間に類似した誤差パターンを生み、他のモデルよりも人間の混同行列および画像レベルのRDMとのカテゴリレベル相関が高い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。