QUICK REVIEW

[論文レビュー] Clicktionary: A Web-based Game for Exploring the Atoms of Object Recognition

Drew Linsley, Sven Eberhardt|arXiv (Cornell University)|Jan 10, 2017

Visual Attention and Saliency Detection参考文献 29被引用数 4

ひとこと要約

Clicktionary は、画像上のユーザーのクリック反応を収集することで、人間が物体認識に用いる診断的視覚的特徴を特定するウェブベースのゲームである。研究では、人間が特定する特徴が、眼動跡の注目度や深層畳み込みニューラルネットワーク（DCN）の重要度マップと異なっていることが明らかになった。これは、人間とDCNの認識精度が類似しているにもかかわらず、視覚的戦略が異なることを示している。

ABSTRACT

Although Deep Convolutional Networks (DCNs) are approaching the accuracy of human observers at object recognition, it is unknown whether they leverage similar visual representations to achieve this performance. To address this, we introduce Clicktionary, a web-based game for identifying visual features used by human observers during object recognition. Importance maps derived from the game are consistent across participants and uncorrelated with image saliency measures. These results suggest that Clicktionary identifies image regions that are meaningful and diagnostic for object recognition but different than those driving eye movements. Surprisingly, Clicktionary importance maps are only weakly correlated with relevance maps derived from DCNs trained for object recognition. Our study demonstrates that the narrowing gap between the object recognition accuracy of human observers and DCNs obscures distinct visual strategies used by each to achieve this performance.

研究の動機と目的

眼動跡のパターンとは無関係に、人間が物体認識に用いる視覚的特徴を調査すること。
深層畳み込みネットワーク（DCN）から得られる特徴と、人間が特定する診断的画像領域を比較すること。
人間とDCNの物体認識戦略が、性能の同等性にもかかわらず一致するかどうかを評価すること。
人間がアノテートした視覚的重要性マップを大規模に収集できる、スケーラブルなウェブベースの手法を開発すること。

提案手法

ウェブベースのゲームインターフェースが参加者に画像を提示し、参加者は物体認識に最も診断的だと考える領域をクリックする。
複数参加者のクリック分布を集約して重要度マップを生成し、認識に寄与するとされる視覚的特徴を表現する。
重要度マップを、眼動跡に基づく画像の注目度マップ（例：固定点ベース）および物体認識に訓練されたDCNの重要度マップと比較する。
統計的分析により、人間の重要度マップと注目度マップ、DCNの重要度マップとの相関を評価する。
繰り返し試行と参加者レベルの正規化により、参加者間の一貫性を確保する。
このアプローチにより、物体認識における人間の知覚的重要性を大規模かつクラウドソーシングで収集可能となる。

実験結果

リサーチクエスチョン

RQ1眼動跡とは無関係に、人間の観察者が物体認識に最も診断的だと認識する視覚的特徴は何か？
RQ2眼動跡から導かれる画像の注目度測定値と、人間が特定する診断的特徴はどのように比較できるか？
RQ3人間の診断的特徴は、物体認識に訓練された深層畳み込みネットワーク（DCN）の重要度マップとどの程度一致するか？
RQ4DCNと人間が類似した物体認識精度を達成しているにもかかわらず、異なる視覚的戦略を用いるのはなぜか？

主な発見

Clicktionary から得られる重要度マップは参加者間で一貫しており、診断的画像領域の信頼性ある同定を示している。
人間が特定する診断的領域は、画像の注目度測定値と相関がなく、視覚的注意ではなく認知的診断性を反映していることが示唆される。
人間の重要度マップは、物体認識に訓練されたDCNの重要度マップとわずかな相関しか示さない。
ほぼ同一の物体認識精度を達成しているにもかかわらず、人間とDCNは分類に異なる視覚的表現に依存している。
結果から、人間とDCNの性能の同等性が、同じ視覚的戦略を共有しているとは限らないことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。