[論文レビュー] Decoupling Features in Hierarchical Propagation for Video Object Segmentation
DeAOT は階層的 VOS において視覚(オブジェクト非依存)と ID(オブジェクト特有)特徴伝播を分離し、軽量な Gate Propagation Module を用いて AOT より高い精度とリアルタイム効率を実現します。
This paper focuses on developing a more effective method of hierarchical propagation for semi-supervised Video Object Segmentation (VOS). Based on vision transformers, the recently-developed Associating Objects with Transformers (AOT) approach introduces hierarchical propagation into VOS and has shown promising results. The hierarchical propagation can gradually propagate information from past frames to the current frame and transfer the current frame feature from object-agnostic to object-specific. However, the increase of object-specific information will inevitably lead to the loss of object-agnostic visual information in deep propagation layers. To solve such a problem and further facilitate the learning of visual embeddings, this paper proposes a Decoupling Features in Hierarchical Propagation (DeAOT) approach. Firstly, DeAOT decouples the hierarchical propagation of object-agnostic and object-specific embeddings by handling them in two independent branches. Secondly, to compensate for the additional computation from dual-branch propagation, we propose an efficient module for constructing hierarchical propagation, i.e., Gated Propagation Module, which is carefully designed with single-head attention. Extensive experiments show that DeAOT significantly outperforms AOT in both accuracy and efficiency. On YouTube-VOS, DeAOT can achieve 86.0% at 22.4fps and 82.0% at 53.4fps. Without test-time augmentations, we achieve new state-of-the-art performance on four benchmarks, i.e., YouTube-VOS (86.2%), DAVIS 2017 (86.2%), DAVIS 2016 (92.9%), and VOT 2020 (0.622). Project page: https://github.com/z-x-yang/AOT.
研究の動機と目的
- 階層 VOS 伝播においてオブジェクト非依存の視覚情報を保持しつつ、オブジェクト特有の ID 情報を伝播させる動機付け。
- 視覚埋め込みと ID 埋め込みをデカップル化する二重ブランチ伝播フレームワークの導入。
- 計算量を削減しつつ性能を維持する効率的な伝播モジュール(GPM)を設計。
- 複数の VOS ベンチマークで最先端の精度とリアルタイム速度を実証。
- VOS ベンチマーク間の一般化と異なるバックボーンへのロバスト性を示す。
提案手法
- オブジェクト非依存の視覚埋め込みとオブジェクト特有の ID 埋め込みを、注意マップを共有する Visual Branch と ID Branch にデカップル化する。
- マルチヘッド LSTT ブロックを、単一ヘッド注意と深さ方向畳み込みに基づく Gate Propagation Modules に置換する。
- GP(U, Q, K, V) を深さ方向畳み込みによる局所文脈で調整するゲーティング関数を用いて伝播を調整する。
- 視覚ガイド付きマッチングを ID 伝播に活用するため、二つのブランチ間で注意マップを共有する。
- GPM フレームワーク内で長期・短期・自己伝播を両方のブランチに対して定式化する。
- 速度と精度のバランスを取るため、メモリと層構成が異なる三つの DeAOT 変種(T, S, B, L)を提供する。
実験結果
リサーチクエスチョン
- RQ1階層伝播における視覚埋込みと ID 埋め込みをデカップル化することで、視覚埋込みの保持と全体的な VOS 精度を改善できるか。
- RQ2単一ヘッドのゲート付き伝播アプローチは、マルチヘッド LSTT ブロックと比較して計算を削減しつつ性能を維持できるか。
- RQ3デュアルブランチ伝播と GPM は YouTube-VOS、DAVIS 2017/2016、VOT 2020 のベンチマークでどのような影響を与えるか。
主な発見
- DeAOT は YouTube-VOS および他のベンチマークで、精度と実行速度の両方で AOT を大幅に上回る。
- R50-DeAOT-L は 22.4 fps で 86.0%/85.9%(J/F)を達成;SwInB-DeAOT-L は 11.9–15.4 fps の範囲で 86.2%/86.1% を達成(変種による) 。
- DeAOT-L および SwinB-DeAOT-L は test-time augmentation なしで YouTube-VOS 2018/2019、DAVIS 2017、DAVIS 2016、VOT 2020 でトップの性能を達成。
- アブレーション研究は、デュアルブランチ伝播と GPM が性能にとって重要であることを示しており、GPM を LSTT に置換すると精度が大幅に低下。
- 単一ヘッド注意と GPM の使用は、マルチヘッド AOT と比較して大きな速度向上を伴いながら競争力のある精度を実現。
- DAVIS 2016 および VOT 2020 では、DeAOT 変種が複数の最先端手法を、精度(J/F/EAO)とリアルタイム指標の両方で上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。