QUICK REVIEW

[논문 리뷰] Robustness of Object Recognition under Extreme Occlusion in Humans and Computational Models

Hongru Zhu, Peng Tang|arXiv (Cornell University)|2019. 05. 11.

Image Processing Techniques and Applications참고 문헌 20인용 수 33

한 줄 요약

이 논문은 인간이 극심한 현실 세계의 가림에 대해 거의 강건함을 보이는 반면 CNN은 뒤처진다; 두 단계 구성 모델이 극심한 가림 하에서 인간에 더 근접한 강건함을 달성한다.

ABSTRACT

Most objects in the visual world are partially occluded, but humans can recognize them without difficulty. However, it remains unknown whether object recognition models like convolutional neural networks (CNNs) can handle real-world occlusion. It is also a question whether efforts to make these models robust to constant mask occlusion are effective for real-world occlusion. We test both humans and the above-mentioned computational models in a challenging task of object recognition under extreme occlusion, where target objects are heavily occluded by irrelevant real objects in real backgrounds. Our results show that human vision is very robust to extreme occlusion while CNNs are not, even with modifications to handle constant mask occlusion. This implies that the ability to handle constant mask occlusion does not entail robustness to real-world occlusion. As a comparison, we propose another computational model that utilizes object parts/subparts in a compositional manner to build robustness to occlusion. This performs significantly better than CNN-based models on our task with error patterns similar to humans. These findings suggest that testing under extreme occlusion can better reveal the robustness of visual recognition, and that the principle of composition can encourage such robustness.

연구 동기 및 목표

극심한 실세계 가림에 대한 인간과 계산 모델의 강건성 평가.
상수 마스크 가림에 대한 강건성이 실제 가림 상황으로 전달되는지 평가.
가려진 차량 이미지에서 CNN들, Hopfield- CNN 하이브리드, 그리고 구성적 두 단계 모델을 비교.
객체 구성 원리가 가림 강건성을 향상시키는지 조사.

제안 방법

극심하게 가려진 차량 이미지 데이터셋에서 인간의 성능 수집(실제 가림체 사용).
가려짐에 대처하도록 수정된 CNN(AlexNet, ResNet, VGG16) 평가.
fc7 특징에서 학습된 CNN+Hopfield 하이브리드 모델 테스트.
부분 검출과 공간 보팅 및 공간 피라미드 풀링을 사용하는 두 단계 구성 모델 제안 및 평가.
인간과 모델 표현을 비교하기 위해 범주 수준 혼동 행렬 및 표현 차이 행렬(RDM)을 사용.

실험 결과

연구 질문

RQ1실제 배경에서 가림체가 실제 다른 물체인 경우에도 인간이 강하게 가려진 물체를 인식할 수 있는가?
RQ2CNN과 하이브드 모델이 인간과 유사하게 극단적 가림에 대한 강건성을 보이는가?
RQ3객체의 부분과 구성 구조를 활용하면 가림 강건성이 향상되는가?
RQ4상수 마스크 가림에 대한 강건성이 실제 가림에 대한 강건성을 예측하는가?
RQ5극단적 가림 하에서 다른 모델의 오인 패턴이 인간의 오류와 어떻게 비교되는가?

주요 결과

인간은 극단적 가림 하에서도 높은 인식 정확도를 보이며 강한 강건성을 시사한다.
CNN은 가림이 없을 때는 잘 작동하지만 극단적 가림 하에서 강건성이 낮다.
Hopfield으로 강화된 CNN은 상수 마스크 가림에서 성능을 향상시키지만 극단적 가림 강건성을 향상시키지 못한다.
부분 검출과 공간 보팅을 이용한 두 단계 구성 모델은 극단적 가림에서 67.0%의 정확도를 달성하여 이 설정에서 CNN과 하이브리드 모델보다 우수한 성능을 보였다.
구성적 모델은 인간과 유사한 오답 패턴을 보이고 인간의 혼동 행렬 및 이미지 수준 RDM과의 카테고리 수준 상관관계가 다른 모델보다 더 높다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.