QUICK REVIEW

[논문 리뷰] Deformable Siamese Attention Networks for Visual Object Tracking

Yuechen Yu, Yilei Xiong|arXiv (Cornell University)|2020. 04. 14.

Video Surveillance and Tracking Methods참고 문헌 44인용 수 25

한 줄 요약

이 논문은 시アン세스 아키텍처 내에서 자기주의와 상호주의를 동시에 모델링함으로써 시각적 객체 추적 성능을 향상시키는 변형 가능한 시안세스 주의망(SiamAttn)을 제안한다. 자기주의를 통해 공간적 및 채널별 맥락을 학습하고, 템플릿 및 검색 특징 간의 상호의존성을 상호주의를 통해 집계함으로써, 구분 능력 있는 특징 표현을 향상시키고, 여섯 가지 벤치마크에서 실시간 추론을 수행하면서 최신 기준 성능을 달성한다.

ABSTRACT

Siamese-based trackers have achieved excellent performance on visual object tracking. However, the target template is not updated online, and the features of the target template and search image are computed independently in a Siamese architecture. In this paper, we propose Deformable Siamese Attention Networks, referred to as SiamAttn, by introducing a new Siamese attention mechanism that computes deformable self-attention and cross-attention. The self attention learns strong context information via spatial attention, and selectively emphasizes interdependent channel-wise features with channel attention. The cross-attention is capable of aggregating rich contextual inter-dependencies between the target template and the search image, providing an implicit manner to adaptively update the target template. In addition, we design a region refinement module that computes depth-wise cross correlations between the attentional features for more accurate tracking. We conduct experiments on six benchmarks, where our method achieves new state of-the-art results, outperforming the strong baseline, SiamRPN++ [24], by 0.464->0.537 and 0.415->0.470 EAO on VOT 2016 and 2018. Our code is available at: https://github.com/msight-tech/research-siamattn.

연구 동기 및 목표

고정된 타겟 템플릿으로 인해 외관 변화와 가림 현상에 대응하지 못하는 시안세스 추적기의 한계를 해결한다.
복잡한 배경과 혼동 물체로부터의 맥락 정보 통합을 통해 특징의 구분 능력을 향상시킨다.
기본 시안세스 네트워크에서 독립적인 특징 추출 방식을 개선하기 위해 템플릿 및 검색 특징 간의 상호주의를 가능하게 한다.
어려운 벤치마크에서 추적 정확도를 크게 향상시키면서도 실시간 추론 속도를 유지한다.
깊이 분리형 상호상관을 통한 주의 특징의 정밀화를 통해 국소화 정밀도를 향상시키는 영역 정밀화 모듈을 설계한다.

제안 방법

변형 가능한 자기주의(공간적 및 채널별)와 템플릿 및 검색 특징 간의 상호주의를 결합한 새로운 시안세스 주의 메커니즘을 도입한다.
공간적으로 변화하는 특징을 더 잘 포착하고 특징 정렬을 향상시키기 위해 변형 가능한 컨볼루션 및 풀링 레이어를 적용한다.
주의 강화된 특징에 대해 깊이 분리형 상호상관을 계산하여 바운딩 박스 및 마스크 예측을 정밀화하는 영역 정밀화 모듈을 구현한다.
LaSOT, TrackingNet, COCO, YouTube-VOS와 같은 대규모 영상 데이터셋을 사용해 네트워크를 엔드 투 엔드로 훈련한다. 이들 데이터셋에는 마스크 주석이 포함되어 있다.
실시간 추론 속도를 확보하기 위해 ResNet-50을 백본 네트워크로 사용한다 (OTB-2015 기준 45 fps, VOT에서 기울인 상자 사용 시 33 fps).
검색 이미지로부터 맥락적 의존성을 집계함으로써 타겟 템플릿을 암묵적으로 업데이트함으로써 강건성과 구분 능력을 향상시키기 위해 상호주의를 활용한다.

실험 결과

연구 질문

RQ1독립적인 특징 추출 방식과 비교해 시안세스 네트워크 내에서 자기주의와 상호주의를 동시에 적용함으로써 특징 표현 능력이 향상되는가?
RQ2상호주의를 통한 배경 맥락 통합이 혼동 물체 및 복잡한 배경에 대비한 구분 능력을 얼마나 향상시키는가?
RQ3깊이 분리형 상호상관을 통한 영역 정밀화 모듈이 국소화 정확도를 얼마나 향상시키는가?
RQ4제안된 변형 가능한 주의 메커니즘이 최신 기준 성능을 달성하면서도 실시간 성능을 유지하는가?
RQ5다양한 수준의 가림, 변형, 배경 혼잡도를 가진 다양한 벤치마크에서 이 방법의 강건성은 어느 정도인가?

주요 결과

VOT 2016에서 SiamAttn는 EAO 0.537의 새로운 최고 기록을 달성하였으며, SiamRPN++ 대비 0.073 향상 (0.464 → 0.537).
VOT 2018에서 메서드는 EAO 0.470을 기록하여 SiamRPN++ 대비 0.055 향상 (0.415 → 0.470).
절단 분석 결과, 상호주의가 자기주의보다 더 크게 기여하며, 베이스라인 대비 EAO를 +4.9% 향상시킨다.
영역 정밀화 모듈만으로도 베이스라인 대비 EAO가 +2.2% 향상되며, 두 주의 메커니즘과 결합하면 최고의 성능을 기록한다.
변형 가능한 레이어 없이도 모델은 강력한 성능을 유지한다 (EAO = 0.516), 이는 주의 및 정밀화 모듈이 향상의 주요 원동력임을 시사한다.
모델은 OTB-2015에서 45 fps, VOT 벤치마크에서 33 fps로 실행되어 높은 정확도를 유지하면서도 실시간 추론 능력을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.