QUICK REVIEW

[논문 리뷰] Clicktionary: A Web-based Game for Exploring the Atoms of Object Recognition

Drew Linsley, Sven Eberhardt|arXiv (Cornell University)|2017. 01. 10.

Visual Attention and Saliency Detection참고 문헌 29인용 수 4

한 줄 요약

Clicktionary는 사용자가 이미지의 영역을 클릭하는 방식으로 인간이 물체 인식에 사용하는 진단 시각적 특징을 수집하는 웹 기반 게임이다. 연구 결과, 인간이 특정한 특징을 식별하는 방식은 눈동자의 움직임에 의한 시각적 주목도와 딥 컨volution 네트워크의 중요도 맵과는 다름을 보여주며, 이는 유사한 인식 정확도에도 불구하고 서로 다른 시각적 전략을 사용하고 있음을 시사한다.

ABSTRACT

Although Deep Convolutional Networks (DCNs) are approaching the accuracy of human observers at object recognition, it is unknown whether they leverage similar visual representations to achieve this performance. To address this, we introduce Clicktionary, a web-based game for identifying visual features used by human observers during object recognition. Importance maps derived from the game are consistent across participants and uncorrelated with image saliency measures. These results suggest that Clicktionary identifies image regions that are meaningful and diagnostic for object recognition but different than those driving eye movements. Surprisingly, Clicktionary importance maps are only weakly correlated with relevance maps derived from DCNs trained for object recognition. Our study demonstrates that the narrowing gap between the object recognition accuracy of human observers and DCNs obscures distinct visual strategies used by each to achieve this performance.

연구 동기 및 목표

눈동자 움직임 패tern과는 무관하게 인간이 물체 인식에 사용하는 시각적 특징을 조사하는 것.
딥 컨volution 네트워크(DCNs)에서 유도된 영역과 인간이 식별한 진단 이미지 영역을 비교하는 것.
인간과 DCN의 물체 인식 전략이 성능가능성에 도달했음에도 불구하고 공통된 시각적 전략으로 수렴하는지 평가하는 것.
인간이 주관적으로 중요하게 여기는 시각적 특징 지도를 대규모로 수집할 수 있는 스케일러블한 웹 기반 방법을 개발하는 것.

제안 방법

웹 기반 게임 인터페이스가 참가자에게 이미지를 제시하고, 참가자는 물체 인식에 가장 진단적인 것으로 생각하는 영역을 클릭한다.
참가자 간 클릭 분포를 집계하여 중요도 지도를 생성하며, 이는 인식에 있어 인식된 진단 특징을 나타낸다.
중요도 지도를 눈동자 고정 기반 등 이미지의 시각적 주목도 지도와, 물체 인식을 위해 훈련된 딥 컨volution 네트워크(DCNs)의 중요도 맵과 비교한다.
통계적 분석을 통해 인간의 중요도 지도와 시각적 주목도 및 DCN 중요도 맵 간 상관관계를 평가한다.
반복 시도와 참가자 수준의 정규화를 통해 참가자 간 일관성을 확보한다.
이 방법은 대규모로 인공지능 기반의 인간 인지 중요도 수집을 가능하게 한다.

실험 결과

연구 질문

RQ1눈동자 움직임과는 무관하게 인간 관찰자가 물체 인식에 가장 진단적인 것으로 식별하는 시각적 특징은 무엇인가?
RQ2눈동자 추적에서 유도된 이미지 시각적 주목도 측정치와 인간이 식별한 진단 특징은 어떻게 비교되는가?
RQ3인간의 진단 특징이 딥 컨volution 네트워크(DCNs)의 중요도 맵과 어느 정도 일치하는가?
RQ4왜 인간과 DCN은 다른 시각적 전략을 사용하고 있음에도 불구하고 유사한 물체 인식 정확도를 달성하는가?

주요 결과

Clicktionary에서 유도된 중요도 지도는 참가자 간 일관성이 있으며, 진단 이미지 영역이 신뢰성 있게 식별됨을 시사한다.
인간이 식별한 진단 영역은 이미지 시각적 주목도 측정치와 상관관계가 없으며, 이는 주로 인지적 진단성에 기반한 것이며 시각적 주목도와는 다름을 의미한다.
인간의 중요도 지도는 물체 인식을 위해 훈련된 DCN의 중요도 맵과는 약한 상관관계를 보인다.
근연한 동일한 물체 인식 정확도에도 불구하고, 인간과 DCN은 분류를 위해 서로 다른 시각적 표현을 사용한다.
결과적으로 인간과 DCN 간 성능의 유사성은 공통된 시각적 전략을 공유한다는 것을 의미하지는 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.