QUICK REVIEW

[論文レビュー] FTDMamba: Frequency-Assisted Temporal Dilation Mamba for Unmanned Aerial Vehicle Video Anomaly Detection

Cheng-Zhuang Liu, Si-Bao Chen|arXiv (Cornell University)|Jan 16, 2026

Anomaly Detection Techniques and Applications被引用数 0

ひとこと要約

FTDMamba は周波数分解能による時空相関モジュールと Temporal Dilation Mamba モジュールを導入し、動的 UAV 動画のマルチソース運動を扱い、静的 Benchmark および新しい MUVAD データセットで最先端の異常検知を実現する

ABSTRACT

Recent advances in video anomaly detection (VAD) mainly focus on ground-based surveillance or unmanned aerial vehicle (UAV) videos with static backgrounds, whereas research on UAV videos with dynamic backgrounds remains limited. Unlike static scenarios, dynamically captured UAV videos exhibit multi-source motion coupling, where the motion of objects and UAV-induced global motion are intricately intertwined. Consequently, existing methods may misclassify normal UAV movements as anomalies or fail to capture true anomalies concealed within dynamic backgrounds. Moreover, many approaches do not adequately address the joint modeling of inter-frame continuity and local spatial correlations across diverse temporal scales. To overcome these limitations, we propose the Frequency-Assisted Temporal Dilation Mamba (FTDMamba) network for UAV VAD, including two core components: (1) a Frequency Decoupled Spatiotemporal Correlation Module, which disentangles coupled motion patterns and models global spatiotemporal dependencies through frequency analysis; and (2) a Temporal Dilation Mamba Module, which leverages Mamba's sequence modeling capability to jointly learn fine-grained temporal dynamics and local spatial structures across multiple temporal receptive fields. Additionally, unlike existing UAV VAD datasets which focus on static backgrounds, we construct a large-scale Moving UAV VAD dataset (MUVAD), comprising 222,736 frames with 240 anomaly events across 12 anomaly types. Extensive experiments demonstrate that FTDMamba achieves state-of-the-art (SOTA) performance on two public static benchmarks and the new MUVAD dataset. The code and MUVAD dataset will be available at: https://github.com/uavano/FTDMamba.

研究の動機と目的

UAV 自機動と物体運動が絡み合う動的 UAV 動画におけるマルチソース運動の結合を解消する。
グローバルな背景運動と局所前景運動を分離する周波数領域のデカップリング時空モデリング手法を開発する。
複数の時間スケールでの時系列の連続性と局所的空間相関を Mamba ベースのアーキテクチャでモデリングする。
現実的な展開シナリオを反映した大規模な移動 UAV-VAD データセット（MUVAD）を作成する。
公開 UAV VAD ベンチマークおよび MUVAD データセットで最先端の性能を示す。

提案手法

FDSCM（Frequency Decoupled Spatiotemporal Correlation Module）を提案。動作源を分離するために時間軸 FFT を、グローバルな時空依存をモデリングするために2D FFT を使用。
Wiener–Khinchin 定理を活用して、特徴強調のためのアテンションマップとして時空自己相関行列を計算する。
TDMM（Temporal Dilation Mamba Module）を STMamba と共に導入し、複数の時間スケールに跨る微細な時間ダイナミクスと局所空間構造を共に学習する。
異なる時間スケール（Phi_eta）でシーケンスを拡張しSTMamba の出力を融合することで、マルチスケールな時間モデリング戦略を実装する。
VAD を未来フレーム予測タスクとして扱い、別個のデコーダを持つ4段階のエンコーダを用いる；損失は強度、勾配、SSIM の項を組み合わせる。
推論は正規化されたフレーム品質スコアを用いた PSNR ベースの異常スコアリングを使用して異常を特定する。

実験結果

リサーチクエスチョン

RQ1周波数領域のデカップリングで動的背景における UAV 自機動と物体運動を分離できるか。
RQ2マルチスケールの時間受容野は、UAV VAD におけるグローバル（長期）およびローカル（短期）運動のモデリングを改善するか。
RQ3FTDMamba フレームワークは、静的背景の UAV VAD ベンチマークと動的背景のデータセットの両方で最先端の性能を達成するか。

主な発見

FTDMamba は2つの公開静的 UAV VAD ベンチマークと新しい MUVAD データセットで SOTA の性能を達成。
MUVAD は 222,736 フレーム、12 の異常タイプにわたる 240 の異常イベントを含む大規模な移動 UAV VAD データセット。
本モデルは時間的周波数分解と時空自己相関アテンション、マルチスケール STMamba ベースのシーケンス処理を統合。
実験は動的背景に対する頑健性とマルチソース運動の効果的なモデリングを示す。
データセット MUVAD は、静的背景データセットでは十分に表現されていない現実的な移動 UAV 条件を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。