QUICK REVIEW

[논문 리뷰] Transformer Transforms Salient Object Detection and Camouflaged Object Detection

Yuxin Mao, Jing Zhang|arXiv (Cornell University)|2021. 04. 20.

Visual Attention and Saliency Detection참고 문헌 109인용 수 45

한 줄 요약

이 논문은 밀도 높은 트랜스포머 백본을 활용하여 장기적 의존성과 구조 학습을 향상시켜, 주목할 만한 객체 검출(SOD) 및 숨겨진 객체 검출(COD)을 위한 통합된 트랜스포머 기반 프레임워크를 제안한다. 깊이 있는 감독과 난이도 인식 학습을 통합함으로써 특징의 균일성과 하드 음성 마이닝을 향상시켜, 다양한 SOD 및 COD 기준에서 새로운 최고 성능을 달성한다.

ABSTRACT

The transformer networks are particularly good at modeling long-range dependencies within a long sequence. In this paper, we conduct research on applying the transformer networks for salient object detection (SOD). We adopt the dense transformer backbone for fully supervised RGB image based SOD, RGB-D image pair based SOD, and weakly supervised SOD within a unified framework based on the observation that the transformer backbone can provide accurate structure modeling, which makes it powerful in learning from weak labels with less structure information. Further, we find that the vision transformer architectures do not offer direct spatial supervision, instead encoding position as a feature. Therefore, we investigate the contributions of two strategies to provide stronger spatial supervision through the transformer layers within our unified framework, namely deep supervision and difficulty-aware learning. We find that deep supervision can get gradients back into the higher level features, thus leads to uniform activation within the same semantic object. Difficulty-aware learning on the other hand is capable of identifying the hard pixels for effective hard negative mining. We also visualize features of conventional backbone and transformer backbone before and after fine-tuning them for SOD, and find that transformer backbone encodes more accurate object structure information and more distinct semantic information within the lower and higher level features respectively. We also apply our model to camouflaged object detection (COD) and achieve similar observations as the above three SOD tasks. Extensive experimental results on various SOD and COD tasks illustrate that transformer networks can transform SOD and COD, leading to new benchmarks for each related task. The source code and experimental results are available via our project page: this https URL.

연구 동기 및 목표

비전 트랜스포머가 주목할 만한 객체 검출(SOD) 및 숨겨진 객체 검출(COD)에서, 특히 낮은 감독 환경에서 효과적인지 조사하기.
비전 트랜스포머에서 명시적 공간 감독의 부재를 해결하기 위해 구조적 및 학습 전략 개선을 도입하기.
RGB-only, RGB-D, 그리고 약한 감독 기반 SOD를 하나의 트랜스포머 기반 프레임워크로 통합하기.
제한된 애너테이션을 가진 객체 검출 작업에서 어텐션 메커니즘과 특징 학습 다이내믹스가 트랜스포머에 어떻게 영향을 미치는지 평가하기.
제안된 프레임워크를 숨겨진 객체 검출에 확장하여, 도전적인 시각 작업 간의 이식 가능성과 강건성을 입증하기.

제안 방법

장기적 의존성을 포착하고 하위 수준 및 고수준 특징의 특징 표현을 향상시키기 위해 밀도 높은 트랜스포머 백본을 채택하기.
고수준 특징으로 기울기 역전파를 유도하기 위해 깊이 있는 감독을 도입하여, 같은 의미 객체 내에서 활성화의 균일성을 증진하기.
어려운 픽셀을 식별하고 집중함으로써 학습 중 하드 음성 마이닝을 효과적으로 수행하기 위해 난이도 인식 학습을 구현하기.
기존의 컨volution 네트워크 백본을 비전 트랜스포머로 대체하여, 완전 감독, RGB-D, 약한 감독 설정에서 SOD 및 COD 성능 향상을 평가하기.
정밀 조정 이전 및 이후의 특징 맵을 시각화하여, CNN과 트랜스포머 백본 간의 구조적 및 의미적 특징 학습을 비교하기.
통합된 프레임워크를 숨겨진 객체 검출에 적용하여, 다양한 객체 외관 도전 상황에서 일관된 성능 향상을 입증하기.

실험 결과

연구 질문

RQ1비전 트랜스포머가 구조 모델링과 일반화 능력을 향상시키며, 기존의 CNNs를 주목할 만한 객체 검출에서 효과적으로 대체할 수 있는가?
RQ2딥 서포트와 난이도 인식 학습이 트랜스포머 기반 SOD 모델의 특징 학습을 어떻게 향상시키는가?
RQ3비전 트랜스포머가 하위 수준 및 고수준 특징에서 정확한 객체 구조와 명확한 의미적 표현을 어느 정도 학습하는가?
RQ4제안된 통합 트랜스포머 프레임워크가 높은 시각적 모호성을 가진 숨겨진 객체 검출 작업에 일반화되는가?
RQ5기존의 SOD 및 COD 방법과 비교했을 때, 트랜스포머 기반 모델의 표준 기준에서의 성능은 어떠한가?

주요 결과

기존의 CNNs에 비해, 트랜스포머 백본은 하위 수준 특징에서 특히 객체 구조 모델링 능력이 뚜렷하게 향상된다.
정밀 조정 후, 트랜스포머 백본은 고수준 특징에서 더 명확한 의미적 표현을 생성하여 검출 정확도를 향상시킨다.
딥 서포트 덕분에 같은 의미 객체 내에서 활성화가 더 균일하게 분포되어 특징의 일관성이 향상된다.
난이도 인식 학습은 어려운 픽셀을 효과적으로 식별하여, 더 나은 하드 음성 마이닝과 성능 향상을 가능하게 한다.
통합된 트랜스포머 프레임워크는 RGB-only, RGB-D, 약한 감독 설정을 포함한 여러 SOD 및 COD 기준에서 새로운 최고 성능을 달성한다.
모델는 숨겨진 객체 검출에 잘 일반화되어 있으며, 다양한 도전적인 시각 조건에서도 일관된 성능 향상을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.