[論文レビュー] Decoupling Amplitude and Phase Attention in Frequency Domain for RGB-Event based Visual Object Tracking
この論文は、周波数領域でのデカップル位相と振幅アテンションを用いた早期融合RGB–Event追跡フレームワークと、バックボーン計算を削減するモーション指向の空間スパース化モジュールを導入し、追跡精度を向上させつつ推定計算を抑制します。
Existing RGB-Event visual object tracking approaches primarily rely on conventional feature-level fusion, failing to fully exploit the unique advantages of event cameras. In particular, the high dynamic range and motion-sensitive nature of event cameras are often overlooked, while low-information regions are processed uniformly, leading to unnecessary computational overhead for the backbone network. To address these issues, we propose a novel tracking framework that performs early fusion in the frequency domain, enabling effective aggregation of high-frequency information from the event modality. Specifically, RGB and event modalities are transformed from the spatial domain to the frequency domain via the Fast Fourier Transform, with their amplitude and phase components decoupled. High-frequency event information is selectively fused into RGB modality through amplitude and phase attention, enhancing feature representation while substantially reducing backbone computation. In addition, a motion-guided spatial sparsification module leverages the motion-sensitive nature of event cameras to capture the relationship between target motion cues and spatial probability distribution, filtering out low-information regions and enhancing target-relevant features. Finally, a sparse set of target-relevant features is fed into the backbone network for learning, and the tracking head predicts the final target position. Extensive experiments on three widely used RGB-Event tracking benchmark datasets, including FE108, FELT, and COESOT, demonstrate the high performance and efficiency of our method. The source code of this paper will be released on https://github.com/Event-AHU/OpenEvTracking
研究の動機と目的
- 難しい照明条件や高速運動下での堅牢な追跡をイベントカメラの特性(高ダイナミックレンジ、高時間解像度)を活用して動機づける。
- 周波数領域での早期融合を提案し、RGB特徴に高周波イベント情報を統合しつつバックボーントークンを削減する。
- 運動誘導空間スパース化を導入し、ターゲット関連領域に焦点を当て背景を抑制する。
- FE108、FELT、COESOTデータセットで効果を示し、アブレーションと最先端手法との比較を行う。
提案手法
- RGBとイベント入力をFFTを介して周波数領域に変換し、振幅と位相成分をデカップリングする。
- 振幅と位相アテンションを適用して高周波イベント情報をRGB特徴に統合し、バックボーン入力トークンを半分に削減する。
- FFTベースの微分ViT(Diff-FFT ViT)を用いてイベントボクセルからターゲット運動をモデル化する。
- 分散に基づく適応的Top-Kトークン選択をガイドするスコアマップ付きのモーション指向空間スパース化(MGSS)モジュールを実装する。
- 両モダリティのTop-K検索特徴を連結し、ViTバックボーン(HiViT)と追跡ヘッドへ入力して最終位置を予測する。
- Focal、L1、GIoU項を組み合わせたOSTrackに倣う損失で訓練する。
実験結果
リサーチクエスチョン
- RQ1周波数領域での早期融合は、追跡のためにRGB特徴を補強する高周波イベント情報を効果的に活用できるか。
- RQ2デカップリングされた振幅–位相アテンションはバックボーン計算を削減しつつ追跡精度を維持または向上させるか。
- RQ3イベントからの運動手掛かりは、ターゲット関連領域に焦点を当てた適応的空間トークンスパ spars化を導くか。
- RQ4提案モジュール(振幅/位相アテンションとMGSS)は、FE108、FELT、COESOTの標準RGB–Event追跡ベンチマークで、最先端手法と比較して性能を向上させるか。
主な発見
| SR | PR |
|---|---|
| 64.4 | 95.2 |
- FE108で、本手法は64.4 SRおよび95.2 PRを達成し、報告テーブルのいくつかのベースラインを上回る。
- 周波数領域で高周波イベント情報をRGBに統合することでバックボーントークン数を半減させ、トークン処理を削減する。
- 運動誘導スパース化モジュールは分散駆動のスコアに基づいてTop-Kトークンを適応的に選択し、背景干渉を低減しつつターゲット関連の手掛かりを保持する。
- FE108、FELT、COESOTデータセットで、複数のSOTA追跡器に対して性能と効率の向上を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。