QUICK REVIEW

[논문 리뷰] Describe and Attend to Track: Learning Natural Language guided Structural Representation and Visual Attention for Object Tracking

Xiao Wang, Chenglong Li|arXiv (Cornell University)|2018. 11. 25.

Video Surveillance and Tracking Methods참고 문헌 39인용 수 26

한 줄 요약

이 논문은 자연어 설명과 그래프 컬러션 네트워크(GCN)를 통합하여 특징 표현과 시각적 어 mentally을 향상시키는 새로운 시각 추적 프레임워크인 DAT(Describe and Attend to Track)를 제안한다. GCN를 통해 훈련 샘플 간의 관계를 모델링하고 언어 유도 트리플렛 손실을 사용함으로써, 차폐 및 외관 변화에 대한 강건성을 향상시켜 5개의 벤치마크 데이터셋에서 최신 기술 수준의 성능을 달성하며, 3개의 GCN 레이어를 사용할 경우 OTB2013에서 67.1%의 성공률을 기록한다.

ABSTRACT

The tracking-by-detection framework requires a set of positive and negative training samples to learn robust tracking models for precise localization of target objects. However, existing tracking models mostly treat different samples independently while ignores the relationship information among them. In this paper, we propose a novel structure-aware deep neural network to overcome such limitations. In particular, we construct a graph to represent the pairwise relationships among training samples, and additionally take the natural language as the supervised information to learn both feature representations and classifiers robustly. To refine the states of the target and re-track the target when it is back to view from heavy occlusion and out of view, we elaborately design a novel subnetwork to learn the target-driven visual attentions from the guidance of both visual and natural language cues. Extensive experiments on five tracking benchmark datasets validated the effectiveness of our proposed method.

연구 동기 및 목표

기존의 검출 기반 추적 방법이 훈련 샘플을 상호 의존 없이 처리함으로써 상호 샘플 간 관계를 간과하는 한계를 해결하기 위해.
시각 추적에서 무거운 차폐, 큰 변형 및 시야 외부 상황에 대한 강건성을 향상시키기 위해.
자연어 설명을 고수준의 의미적 감독으로 활용하여 구조적 특징 학습과 어 mentally 생성을 안내하기 위해.
추적 실패 후 재검출을 효과적으로 가능하게 하는 타겟 기반 글로벌 어 mentally 메커니즘을 설계하기 위해.
더 높은 추적 정확도와 강건성을 확보하기 위해 국소 및 글로벌 제안 전략을 통합하기 위해.

제안 방법

각 훈련 샘플을 노드로 하는 그래프를 구축하고, 그래프 컬러션 네트워크(GCN)를 사용하여 샘플 간의 쌍별 관계 특징을 전파하고 정제한다.
자연어 임bedding와 함께 트리플렛 손실 함수를 사용하여 구조적 표현 학습을 유도함으로써 분류 능력을 향상시킨다.
시각 패치와 자연어 사양을 모두 활용하여 타겟에 특화된 시각적 어 mentally 맵을 생성하는 새로운 서브넷인 GPGNet을 설계한다.
글로벌 어 mentally 영역의 특징과 국소 제안을 연결하여 이들을 이진 분류기로 전달하여 최종 추적 결정을 내린다.
GCN 기반의 구조적 표현과 어 mentally 유도 제안 생성을 동시에 최적화하는 엔드 투 엔드 학습 체계를 도입한다.
프레임, 언어, 타겟 패치에서 효율적인 특징 추출을 위해 경량의 컨볼루션 인코더를 사용하고, 특징 연결 및 업샘플링을 통해 어 mentally 맵을 생성한다.

실험 결과

연구 질문

RQ1그래프 구조를 통해 샘플 간 관계를 모델링하면 시각 추적 특징의 분류 능력이 향상되는가?
RQ2자연어 감독이 차폐 및 외관 변화와 같은 도전적인 조건에서 추적 모델의 강건성을 향상시키는가?
RQ3시각적 및 언어적 신호를 모두 기반으로 하는 타겟 기반 시각적 어 mentally가 타겟 실종 후 재검출을 향상시키는가?
RQ4글로벌 및 국소 검색 전략의 통합이 장기 추적 벤치마크에서 추적 성능에 어떤 영향을 미치는가?
RQ5정확도와 학습 효율성을 균형 잡는 데 최적의 GCN 레이어 수는 얼마인가?

주요 결과

제안된 DAT 추적기는 5개의 GCN 레이어를 사용할 경우 OTB2013 벤치마크에서 67.1%의 성공률을 기록하며, 베이스라인 pyMDNet(65.4%) 및 기타 최신 기술 수준의 방법들을 능가한다.
유사한 간섭자가 많은 46개의 OTB100 시퀀스로 구성된 도전적인 서브세트에서 모델은 91.8%의 정밀도와 65.2%의 성공률을 기록하며, pyMDNet(86.5% 정밀도, 64.2% 성공률)보다 뚜렷이 뛰어나다.
3개의 GCN 레이어를 사용할 경우 성능과 학습 시간 간의 최적의 트레이드오��을 달성하며, OTB2013에서 0.663의 성공률을 기록하여 2개 레이어(0.654)보다 약간 뛰어나고 5개 레이어(0.671)와 유사한 성능을 보였다.
언어 유도 트리플렛 손실과 GCN 기반의 구조적 모델링의 통합은 하드 양성 및 음성 샘플 처리에서 뚜렷한 성능 향상을 이끌어냈다.
타겟 기반 글로벌 어 mentally 메커니즘은 중대한 차폐 및 시야 외부 이벤트 이후 타겟을 효과적으로 복구하며, 장기 추적 시퀀스에서의 성능 향상을 통해 이를 입증했다.
제안된 GPGNet 서브넷은 일반적인 시각적 사전 지도가 아닌, 비디오에 특화된 어 mentally 맵을 성공적으로 생성하여 타겟 개체에 집중하며 효과적인 글로벌 제안 생성을 가능하게 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.