QUICK REVIEW

[논문 리뷰] Reverse Attention for Salient Object Detection

Shuhan Chen, Xiuli Tan|arXiv (Cornell University)|2018. 07. 26.

Visual Attention and Saliency Detection참고 문헌 45인용 수 57

한 줄 요약

간단한 지배적 물체 탐지 네트워크를 소개하며, 역-attention으로 가이드된 사이드-출력 잔차 학습을 사용해 지배도 맵을 점진적으로 정제하고, 모델 크기(~81 MB)와 실시간 속도(~45 FPS)로 높은 정확도 달성.

ABSTRACT

Benefit from the quick development of deep learning techniques, salient object detection has achieved remarkable progresses recently. However, there still exists following two major challenges that hinder its application in embedded devices, low resolution output and heavy model weight. To this end, this paper presents an accurate yet compact deep network for efficient salient object detection. More specifically, given a coarse saliency prediction in the deepest layer, we first employ residual learning to learn side-output residual features for saliency refinement, which can be achieved with very limited convolutional parameters while keep accuracy. Secondly, we further propose reverse attention to guide such side-output residual learning in a top-down manner. By erasing the current predicted salient regions from side-output features, the network can eventually explore the missing object parts and details which results in high resolution and accuracy. Experiments on six benchmark datasets demonstrate that the proposed approach compares favorably against state-of-the-art methods, and with advantages in terms of simplicity, efficiency (45 FPS) and model size (81 MB).

연구 동기 및 목표

임베디드 또는 실시간 적용을 위해 지배 맵 해상도를 축소하되 정확도는 유지.
매개변수가 제한된 경량 아키텍처를 개발하여 최첨단 방법과 경쟁.
완전한 물체 부분과 경계에 대한 가이드를 제공하는 잔차 학습에 역-attention 도입.
다양한 데이터셋에서 실시간 성능과 더 작은 모델 크기를 입증.

제안 방법

증가하는 해상도의 다섯 개의 사이드-출력 단계가 있는 HED/VGG-16 백본에 기반.
몇 개의 매개변수로 지배를 점진적으로 정제하기 위한 사이드-출력 잔차 학습 도입.
현재 예측을 지워 잔차 학습을 누락된 영역으로 이끌도록 상향식 역-attention 블록을 삽입.
각 사이드-출력에서 깊은 감독으로 학습하고 픽셀 단위의 클래스 균형 교차 엔트로피 손실 사용.
퓨전 레이어를 피하고 시그모이드 활성화 후 첫 번째 사이드-출력을 최종 예측으로 사용.

실험 결과

연구 질문

RQ1가벼운 잔차 정제 전략이 다중 스케일 합성 없이 지배 맵을 개선할 수 있는가?
RQ2역 attention이 잔차 학습을 효과적으로 이끌어 놓친 물체 부분과 경계를 회복하는가?
RQ3잔차 깊이(D)가 정확도와 효율성에 미치는 영향은 무엇인가?
RQ4다양한 벤치마크에서 F-측정 및 MAE 면에서 제안된 방법이 최첨단 방법과 어떻게 비교되는가?
RQ5메소드가 낮은 메모리 요구로 실시간 성능이 가능한가?

주요 결과

제안한 모델은 81 MB의 가벼움에도 불구하고 최첨단 방법과 경쟁력 있는 성능을 달성한다.
RA(역-attention)는 RA가 없는 기반라인 대비 F-measure가 평균 약 1.4% 증가, MAE는 약 0.5% 감소.
아블레이션은 더 많은 사이드-출력 잔차를 도입할수록 성능이 향상되며, D=2가 주요 데이터셋에서 최적의 결과를 낳는다.
모델은 표준 GPU에서 약 45 FPS로 실행되어 여러 동료들보다 속도가 앞서면서 높은 품질의 지배 맵을 유지한다.
여섯 개의 벤치마크 데이터셋(MSRA-B, HKU-IS, ECSSD, PASCAL-S, SOD, DUT-OMRON)에서 후처리(CRF)와 같은 추가 절차 없이도 정량적 및 정성적 결과가 바람직하게 나타난다.
이 접근법은 단순성과 효율성을 강조하며 임베디드 장치에서 실시간 지배 객체 탐지에 실용적인 옵션을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.