QUICK REVIEW

[論文レビュー] DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

Xiaodong Zhu, Suting Wang|arXiv (Cornell University)|Mar 5, 2026

Digital Media Forensic Detection被引用数 0

ひとこと要約

DeformTrace はリレートークンとクロスシーケンス相互作用を統合した可変形性状態空間モデルを組み合わせることで、時系列の偽造局在化を強化し、より効率的で堅牢な最先端精度を実現します。

ABSTRACT

Temporal Forgery Localization (TFL) aims to precisely identify manipulated segments in video and audio, offering strong interpretability for security and forensics. While recent State Space Models (SSMs) show promise in precise temporal reasoning, their use in TFL is hindered by ambiguous boundaries, sparse forgeries, and limited long-range modeling. We propose DeformTrace, which enhances SSMs with deformable dynamics and relay mechanisms to address these challenges. Specifically, Deformable Self-SSM (DS-SSM) introduces dynamic receptive fields into SSMs for precise temporal localization. To further enhance its capacity for temporal reasoning and mitigate long-range decay, a Relay Token Mechanism is integrated into DS-SSM. Besides, Deformable Cross-SSM (DC-SSM) partitions the global state space into query-specific subspaces, reducing non-forgery information accumulation and boosting sensitivity to sparse forgeries. These components are integrated into a hybrid architecture that combines the global modeling of Transformers with the efficiency of SSMs. Extensive experiments show that DeformTrace achieves state-of-the-art performance with fewer parameters, faster inference, and stronger robustness.

研究の動機と目的

未加工の音声-映像シーケンスにおける時系列偽造局在化（TFL）の正確なモチベーションを示す。
TFL における境界の曖昧さ、偽造の稀薄性、および長距離依存性に対処する。
局在化の精度と堅牢性を高めるために可変形ダイナミクスとリレーメカニズムを導入する。
可変形状態空間モデリングと Transformer ライクなグローバル推論を組み合わせたハイブリッドアーキテクチャを提案する。

提案手法

DS-SSM（Deformable Self-SSM）を導入して正確な境界定位のための動的な時系列受容野を学習する。
長距離情報の減衰を緩和するため、サブ空間間で情報を中継する学習可能なリレートークンを導入する。
DC-SSM（Deformable Cross-SSM）を開発してクエリ特異的なクロスシーケンス相互作用を可能にし、稀薄な偽造を検出する。
DS-SSM、DC-SSM、リレートークンを統合したハイブリッドアーキテクチャを組み合わせ、効率的な状態更新と Transformer 型のグローバルモデリングを融合する。
事前学習済みバックボーンからのマルチスケールの音声-映像特徴と、偽造提案生成と局在化のための TadTR に着想を得たクエリベースのデコーダを使用する。
セグメント回帰のためのハンガリー型マッチング損失と、リレートークンの協調と専門化を促す追加の補助損失でトレーニングする。

実験結果

リサーチクエスチョン

RQ1Deformable な時系列サンプリングは TFL における境界局在化をどのように改善するか。
RQ2リレートークンは状態空間モデルの長距離減衰を緩和して、長い動画/音声シーケンスのモデリングを強化できるか。
RQ3クロスシーケンス（DC-SSM）相互作用は偽造が散在する場合の検出を、偽造関連情報への焦点付けを通じて改善するか。
RQ4ハイブリッド Transformer-SSM アーキテクチャは、純粋な Transformer や SSM ベースラインと比べて精度と効率のトレードオフを改善するか。
RQ5DeformTrace は一般的な視覚/音声の歪みや圧縮に対して偽造セグメントの局在化でどれだけ堅牢か。

主な発見

LAV-DF および AV-Deepfake1M ベンチマークで最先端の性能を、強力なベースラインよりも少ないパラメータと高速な推論で達成。
DS-SSM は固定ウィンドウ上の動的な時系列受容野を可能にすることで局在化の精度を向上。
DC-SSM はクエリ特異的なクロスシーケンス相互作用を通じて、稀薄な偽造への感度を高める。
リレートークンは受容野を大きく拡張し、長距離減衰を緩和して長いシーケンスでの時系列推論を改善。
完全な DeformTrace アーキテクチャは、ベースラインと比較して効率（FLOPs が低い）を保ちながら、さまざまな歪み下でも堅牢性を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。