[論文レビュー] Why Can't I Open My Drawer? Mitigating Object-Driven Shortcuts in Zero-Shot Compositional Action Recognition
この論文は、オブジェクト主導のショートカットをゼロショットの組成的アクション認識(ZS-CAR)の主要な故障モードとして特定し、RCORE を提案します。RCORE は組成意識のデータ拡張と時系列順序正則化を組み合わせ、動詞の時間的根拠を持つ学習を促進するフレームワークで、見えない動詞–目的語の一般化を改善します。
We study Compositional Video Understanding (CVU), where models must recognize verbs and objects and compose them to generalize to unseen combinations. We find that existing Zero-Shot Compositional Action Recognition (ZS-CAR) models fail primarily due to an overlooked failure mode: object-driven verb shortcuts. Through systematic analysis, we show that this behavior arises from two intertwined factors: severe sparsity and skewness of compositional supervision, and the asymmetric learning difficulty between verbs and objects. As training progresses, the existing ZS-CAR model increasingly ignores visual evidence and overfits to co-occurrence statistics. Consequently, the existing model does not gain the benefit of compositional recognition in unseen verb-object compositions. To address this, we propose RCORE, a simple and effective framework that enforces temporally grounded verb learning. RCORE introduces (i) a composition-aware augmentation that diversifies verb-object combinations without corrupting motion cues, and (ii) a temporal order regularization loss that penalizes shortcut behaviors by explicitly modeling temporal structure. Across two benchmarks, Sth-com and our newly constructed EK100-com, RCORE significantly improves unseen composition accuracy, reduces reliance on co-occurrence bias, and achieves consistently positive compositional gaps. Our findings reveal object-driven shortcuts as a critical limiting factor in ZS-CAR and demonstrate that addressing them is essential for robust compositional video understanding.
研究の動機と目的
- ZS-CAR モデルが見えない動詞–目的語の対に一般化できない理由を特定する。
- 共起事前分布と動詞と目的語の学習非対称性の役割を診断する。
- ショートカット学習を緩和し、時系列に grounded な動詞表現を強化する簡易なフレームワークを提案する。
- 複数データセットにわたるオープンワールド・偏りのない設定で一般化向上を検証する。
提案手法
- ZS-CAR におけるオブジェクト主導ショートカット現象を診断するためのトレーニングバイアスと組成ギャップの診断指標を用いる。
- VOCAMix を導入して時系列構造を保持しつつ見えない動詞–目的語の組み合わせを合成する。
- TORC(時系列順序正則化損失)を提案し、静的なオブジェクト手掛かりよりも時系列ダイナミクスへの依存を強制する。
- 頻繁な組み合わせへの偏りを抑制するため、限界組成損失と共起マージン損失を導入する。
- AIM をバックボーンとして、Sth-com および EK100-com データセットを用いたオープンワールド・偏り設定で評価する。
![Figure 2 : Controlled experiments demonstrate object-driven shortcut learning in ZS-CAR. We empirically identify a key failure mode in ZS-CAR—object-driven shortcuts. (a) Objects are easier to learn than verbs. We train a randomly initialized ViT [ 10 ] on a balanced 10 $\times$ 10 verb-object subse](https://ar5iv.labs.arxiv.org/html/2601.16211/assets/x2.png)
実験結果
リサーチクエスチョン
- RQ1従来のZS-CAR評価プロトコルは真のモデル挙動と一般化を忠実に明らかにしているか。
- RQ2提案された組成ギャップ指標は、独立した動詞/オブジェクト予測を超える組成理解の実質的な利点を示しているか。
- RQ3RCORE はZS-CAR における共起過学習とオブジェクト主導の動詞ショートカットを低減できるか。
- RQ4RCORE の改善はデータセットや評価設定を跨いで一般化するか。
- RQ5RCORE の各コンポーネントは堅牢な組成学習にどのように寄与するか。
主な発見
- ZS-CAR モデルは共起バイアスとオブジェクトと動詞の学習非対称性に driven されたオブジェクト主導のショートカットを示す。
- RCORE は共起事前分布への依存を低減し、未知の組成に対して正の組成ギャップを生み出す。
- VOCAMix は時系列手掛かりを乱さずに plausible な見えない動詞–目的語の組み合わせを拡張する。
- TORC は時系列 grounded な動詞表現を強化し、静的手掛かりへの依存を減らす。
- Sth-com および EK100-com で、RCORE は未知の組成精度を改善し、強いベースラインと比較して動詞表現を強化する。
![Figure 3 : Learning curve of the SOTA model with our diagnostic metrics. We plot the learning curve of C2C [ 16 ] trained on Sth-com [ 16 ] . We measure the False Seen Prediction (FSP) and False Co-occurrence Prediction (FCP) ratios, and observe that the seen–unseen accuracy gap ( $\Delta_{SU}$ ) co](https://ar5iv.labs.arxiv.org/html/2601.16211/assets/x6.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。