QUICK REVIEW

[논문 리뷰] Cascaded Partial Decoder for Fast and Accurate Salient Object Detection

Zhe Wu, Li Su|arXiv (Cornell University)|2019. 04. 18.

Visual Attention and Saliency Detection참고 문헌 43인용 수 100

한 줄 요약

요약: 저수준 해상도 특징을 버려 속도를 높이되 생성된 중요도 맵으로 더 깊은 특징을 보정해 정확도를 높이는 연쇄적 부분 디코더(CPD)를 도입하여 다섯 벤치마크에서 최첨단 성능을 달성하고 추론 속도를 향상시킵니다.

ABSTRACT

Existing state-of-the-art salient object detection networks rely on aggregating multi-level features of pre-trained convolutional neural networks (CNNs). Compared to high-level features, low-level features contribute less to performance but cost more computations because of their larger spatial resolutions. In this paper, we propose a novel Cascaded Partial Decoder (CPD) framework for fast and accurate salient object detection. On the one hand, the framework constructs partial decoder which discards larger resolution features of shallower layers for acceleration. On the other hand, we observe that integrating features of deeper layers obtain relatively precise saliency map. Therefore we directly utilize generated saliency map to refine the features of backbone network. This strategy efficiently suppresses distractors in the features and significantly improves their representation ability. Experiments conducted on five benchmark datasets exhibit that the proposed model not only achieves state-of-the-art performance but also runs much faster than existing models. Besides, the proposed framework is further applied to improve existing multi-level feature aggregation models and significantly improve their efficiency and accuracy.

연구 동기 및 목표

깊은 주목 모델에서 저해상도 특징의 계산량을 줄이는 것을 동기로 삼는다.
초기 및 정제된 주목 맵을 위한 부분 디코더를 갖춘 이분 지배 백본 두 가지를 제안한다.
주목성 커버리지를 확장하고 방해물을 억제하는 holistic 주의 모듈을 도입한다.
초기 맵이 더 깊은 특징의 정제를 안내하는 연쇄 최적화 메커니즘을 개발한다.
CPD가 다수의 벤치마크에서 정확도와 속도를 모두 향상시키고 기존 모델을 강화할 수 있음을 보여준다.

제안 방법

상위 3 개 특징 레벨(f3, f4, f5)에서 초기 주의가 생성되도록 이분 지배 백본을 채택한다.
깊은 수준 특징만을 모아 초기 중요도 맵 S_i 를 생성하는 부분 디코더를 구현한다.
요소별 곱셈으로 중간 수준 특징을 정제해 f3^d 를 얻는 holistic 주의 맵 S_h 를 생성한다.
정제된 특징에 대해 두 번째 부분 디코더를 사용해 최종 중요도 맵 S_d 를 생성한다.
수용 영역 블록에서 영감받은 빠른 컨텍스트 모듈을 도입해 글로벌 컨텍스트를 네 갈래 가지와 채널 축소로 포착한다.
두 개의 분기에서 두 개의 중요도 맵을 공동 교차 엔트로피 손실로 학습해 일관된 주목 탐지를 촉진한다.]

실험 결과

연구 질문

RQ1저수준 특징을 버리는 것이 주목 정확도를 해치지 않으면서 계산량을 줄일 수 있는가?
RQ2초기 주목 맵을 사용해 더 높은 계층의 특징을 정제하면 최종 주목 품질이 향상되는가?
RQ3Holistic 주의 모듈이 초기 주의에 비해 객체의 커버리지와 경계 구분을 개선하는가?
RQ4CPD 프레임워크가 자체 아키텍처를 넘어 기존의 심층 집합화 모델을 개선할 수 있는가?
RQ5두 가지 분기 주목 설계가 벤치마크 전반에서 실시간 주목 객체 탐지에 viable한가?

주요 결과

Method	Backbone	FPS	ECSSD-maxF	ECSSD-avgF	ECSSD-MAE	HKU-maxF	HKU-avgF	HKU-MAE	DUT-OMRON-maxF	DUT-OMRON-avgF	DUT-OMRON-MAE	DUTS-maxF	DUTS-avgF	DUTS-MAE	PASCAL-S-maxF	PASCAL-S-avgF	PASCAL-S-MAE
CPD (ours)	VGG16	66	0.936	0.915	0.040	0.924	0.896	0.033	0.794	0.745	0.057	0.864	0.813	0.043	0.866	0.825	0.074
CPD-A (ours)	VGG16	105	0.928	0.906	0.045	0.918	0.884	0.037	0.781	0.721	0.061	0.854	0.787	0.047	0.859	0.814	0.077
CPD-R (ours)	ResNet50	62	0.939	0.917	0.037	0.925	0.891	0.034	0.797	0.747	0.056	0.865	0.805	0.043	0.864	0.824	0.072
CPD-RA (ours)	ResNet50	104	0.934	0.907	0.043	0.918	0.882	0.038	0.783	0.725	0.059	0.852	0.776	0.048	0.855	0.807	0.077

CPD는 다섯 벤치마크(ECSSD, HKU-IS, PASCAL-S, DUTS, DUT-OMRON)에서 최첨단 성능을 달성한다.
CPD는 기존 모델보다 빠르게 작동하며, DUTS에서의 FPS 비교에서 두드러진 속도 향상을 보인다.
주목 분기(S_i)와 연쇄 정제(S_d)는 단일 분기 디코더보다 모든 데이터셋에서 더 좋은 성능을 보인다.
CPD를 BMPM, Amulet, NLDF 같은 기존 모델에 Embedding하면 정확도와 효율성이 크게 향상되며 CPD-CPD-A 변형에서 개선이 나타난다.
Holistic 주의는 여러 모델에서 초기 주의보다 우수하며 Conv3_3을 최적화 계층으로 선택하면 정확도와 속도의 균형이 좋다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.