Skip to main content
QUICK REVIEW

[논문 리뷰] Decoupling Features in Hierarchical Propagation for Video Object Segmentation

Zongxin Yang, Yi Yang|arXiv (Cornell University)|2022. 10. 18.
Visual Attention and Saliency Detection인용 수 51
한 줄 요약

DeAOT는 계층 비디오 객체 분할에서 시각 정보(객체 비특이적)와 ID 정보(객체 특이적) 특성 전파를 분리하고, 경량 게이티드 전파 모듈을 사용하여 AOT 대비 더 높은 정확도와 실시간 효율성을 달성합니다.

ABSTRACT

This paper focuses on developing a more effective method of hierarchical propagation for semi-supervised Video Object Segmentation (VOS). Based on vision transformers, the recently-developed Associating Objects with Transformers (AOT) approach introduces hierarchical propagation into VOS and has shown promising results. The hierarchical propagation can gradually propagate information from past frames to the current frame and transfer the current frame feature from object-agnostic to object-specific. However, the increase of object-specific information will inevitably lead to the loss of object-agnostic visual information in deep propagation layers. To solve such a problem and further facilitate the learning of visual embeddings, this paper proposes a Decoupling Features in Hierarchical Propagation (DeAOT) approach. Firstly, DeAOT decouples the hierarchical propagation of object-agnostic and object-specific embeddings by handling them in two independent branches. Secondly, to compensate for the additional computation from dual-branch propagation, we propose an efficient module for constructing hierarchical propagation, i.e., Gated Propagation Module, which is carefully designed with single-head attention. Extensive experiments show that DeAOT significantly outperforms AOT in both accuracy and efficiency. On YouTube-VOS, DeAOT can achieve 86.0% at 22.4fps and 82.0% at 53.4fps. Without test-time augmentations, we achieve new state-of-the-art performance on four benchmarks, i.e., YouTube-VOS (86.2%), DAVIS 2017 (86.2%), DAVIS 2016 (92.9%), and VOT 2020 (0.622). Project page: https://github.com/z-x-yang/AOT.

연구 동기 및 목표

  • 계층적 VOS 전파에서 객체 비특이적 시각 정보를 보존하면서 객체 특정 ID 정보를 전파하도록 동기를 부여합니다.
  • 시각 임베딩과 ID 임베딩을 분리하기 위한 이중 분기 전파 프레임워크를 도입합니다.
  • 성능을 유지하면서 계산량을 줄이기 위한 효율적인 전파 모듈(GPM)을 설계합니다.
  • 다수의 VOS 벤치마크에서 최신의 정확도와 실시간 속도를 입증합니다.
  • 다양한 백본에서의 일반화와 백본 변화에 대한 강건성을 보여줍니다.

제안 방법

  • 객체 비특이적 시각 임베딩과 객체 특정 ID 임베딩을 어텐션 맵을 공유하는 Visual Branch와 ID Branch로 분리합니다.
  • 다중 헤드 LSTT 블록을 단일 헤드 어텐션과 깊이별 합성곱으로 구축된 Gated Propagation Modules로 대체합니다.
  • 로컬 컨텍스트를 위한 깊이별 합성곱을 갖춘 GP(U, Q, K, V)로 전파를 조절하는 게이팅 함수 사용.
  • 시각 가이드 매칭을 활용하도록 두 분기가 어텐션 맵을 공유합니다.
  • 두 분기 모두에서 GPM 프레임워크 내에서 장기-단기-자체 전파를 형식화합니다.
  • 다른 메모리 및 계층 구성으로 속도와 정확도를 균형 있게 유지하는 세 가지 DeAOT 변형(T, S, B, L)을 제공합니다.

실험 결과

연구 질문

  • RQ1계층적 전파에서 시각 임베딩과 ID 임베딩의 분리가 시각 임베딩 보존과 전체 VOS 정확도 향상으로 이어질 수 있습니까?
  • RQ2단일 헤드 게이티드 전파 방식이 다중 헤드 LSTT 블록에 비해 계산을 줄이면서 성능을 유지합니까?
  • RQ3이중 분기 전파와 GPM이 YouTube-VOS, DAVIS 2017/2016, VOT 2020 벤치마크에서 결과에 어떤 영향을 미칩니까?

주요 결과

  • DeAOT는 YouTube-VOS 및 기타 벤치마크에서 정확도와 런타임 속도 모두에서 AOT를 크게 능가합니다.
  • R50-DeAOT-L은 22.4 fps에서 86.0%/85.9% (J/F)를 달성; SwinB-DeAOT-L은 11.9–15.4 fps 범위로 86.2%/86.1%를 달성합니다(변형에 따라 다름).
  • DeAOT-L 및 SwinB-DeAOT-L은 테스트 시 보강 없이 YouTube-VOS 2018/2019, DAVIS 2017, DAVIS 2016, 및 VOT 2020에서 최상위 성능을 달성합니다.
  • GPM을 통한 이중 분기 전파와 GPM이 성능에 중요한 기여를 한다는 애브레이션 연구가 있으며, GPM을 LSTT로 대체하면 정확도가 크게 떨어집니다.
  • 단일 헤드 어텐션과 GPM를 사용하면 다중 헤드 AOT에 비해 상당한 속도 향상에도 불구하고 경쟁력 있는 정확도를 얻을 수 있습니다.
  • DAVIS 2016 및 VOT 2020에서 DeAOT 변형은 정확도(J/F/EAO)와 실시간 지표 모두에서 다수의 최첨단 방법을 능가합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.