Skip to main content
QUICK REVIEW

[論文レビュー] AD-MIR: Bridging the Gap from Perception to Persuasion in Advertising Video Understanding via Structured Reasoning

Binxiao Xu, Junyu Feng|arXiv (Cornell University)|Feb 7, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

AD-MIR は、構造化メモリと逐次推論に基づく2段階のフレームワークを導入し、AdsQA で最先端の成果を達成。強力なベースラインを strict精度で1.8%、relaxed精度で9.5%上回る。

ABSTRACT

Multimodal understanding of advertising videos is essential for interpreting the intricate relationship between visual storytelling and abstract persuasion strategies. However, despite excelling at general search, existing agents often struggle to bridge the cognitive gap between pixel-level perception and high-level marketing logic. To address this challenge, we introduce AD-MIR, a framework designed to decode advertising intent via a two-stage architecture. First, in the Structure-Aware Memory Construction phase, the system converts raw video into a structured database by integrating semantic retrieval with exact keyword matching. This approach prioritizes fine-grained brand details (e.g., logos, on-screen text) while dynamically filtering out irrelevant background noise to isolate key protagonists. Second, the Structured Reasoning Agent mimics a marketing expert through an iterative inquiry loop, decomposing the narrative to deduce implicit persuasion tactics. Crucially, it employs an evidence-based self-correction mechanism that rigorously validates these insights against specific video frames, automatically backtracking when visual support is lacking. Evaluation on the AdsQA benchmark demonstrates that AD-MIR achieves state-of-the-art performance, surpassing the strongest general-purpose agent, DVD, by 1.8% in strict and 9.5% in relaxed accuracy. These results underscore that effective advertising understanding demands explicitly grounding abstract marketing strategies in pixel-level evidence. The code is available at https://github.com/Little-Fridge/AD-MIR.

研究の動機と目的

  • 広告動画におけるピクセルレベルの知覚と高レベルのマーケティング論理との認知的ギャップを橋渡しする。
  • 知覚データを構造化されたメモリ表現へ落とし込む2段階アーキテクチャを開発する。
  • 反復的で根拠に基づく構造化推論を有効にして、暗黙の説得戦略を推論する。

提案手法

  • Stage 1: Structure-Aware Memory Construction は、生語検索と正確なキーワード一致を統合して生動画を構造化データベースへ変換する;背景ノイズを除去して重要な主人公を分離する際、ブランドの微細な詳細を強調する。
  • Stage 2: Structured Reasoning Agent は、説得戦略を推論するために叙述を分解する反復的な問いかけループを備えたマーケティング専門家を模擬する。
  • An evidence-based self-correction mechanism validates insights against specific video frames and backtracks automatically when visual support is lackingを訳文ではそのまま保持します。

実験結果

リサーチクエスチョン

  • RQ1広告動画を raw perception から説得推論を支える構造化表現へ変換するにはどうすればよいか。
  • RQ2フレームに基づく証拠に guided された構造化推論エージェントは、広告の暗黙のマーケティング戦略を発見できるか。
  • RQ3ピクセルレベルの証拠に抽象的なマーケティング概念を結びつけることは、AdsQA のようなベンチマークで理解性能を改善するか。

主な発見

  • AD-MIR は AdsQA ベンチマークで最先端の性能を達成。
  • 最も強力な一般目的エージェントである DVD を strict 精度で1.8%上回る。
  • 最も強力な一般目的エージェントである DVD を relaxed 精度で9.5%上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。