[論文レビュー] Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss
「CAMoE」は、混合専門家を用いた多ストリームコーパス整合ネットワークとDual Softmax Lossを提案し、ビデオとテキストの検索における内容の異質性に対処して、MSR-VTT、MSVD、LSMDCで最先端の性能を達成する。
Employing large-scale pre-trained model CLIP to conduct video-text retrieval task (VTR) has become a new trend, which exceeds previous VTR methods. Though, due to the heterogeneity of structures and contents between video and text, previous CLIP-based models are prone to overfitting in the training phase, resulting in relatively poor retrieval performance. In this paper, we propose a multi-stream Corpus Alignment network with single gate Mixture-of-Experts (CAMoE) and a novel Dual Softmax Loss (DSL) to solve the two heterogeneity. The CAMoE employs Mixture-of-Experts (MoE) to extract multi-perspective video representations, including action, entity, scene, etc., then align them with the corresponding part of the text. In this stage, we conduct massive explorations towards the feature extraction module and feature alignment module. DSL is proposed to avoid the one-way optimum-match which occurs in previous contrastive methods. Introducing the intrinsic prior of each pair in a batch, DSL serves as a reviser to correct the similarity matrix and achieves the dual optimal match. DSL is easy to implement with only one-line code but improves significantly. The results show that the proposed CAMoE and DSL are of strong efficiency, and each of them is capable of achieving State-of-The-Art (SOTA) individually on various benchmarks such as MSR-VTT, MSVD, and LSMDC. Further, with both of them, the performance is advanced to a big extend, surpassing the previous SOTA methods for around 4.6\% R@1 in MSR-VTT.
研究の動機と目的
- ビデオとテキスト間の異質性を、視覚情報と意味情報を複数のストリームに分解することによってVTRで解決する。
- CAMoE(マルチストリーム混合専門家)を導入して多様な跨モーダル表現を学習する。
- 対照学習における二重最適一致仮説を強化し、一方向最適解の問題を減らすためにDual Softmax Lossを提案する。
- CAMoEとDSLが標準ベンチマークで個別にも共同にもSOTAを改善することを示す。
- 設計上の選択を理解し、今後の跨モーダル事前学習モデルの指針を提供するアブレーションを探る。
提案手法
- CAMoEは複数の専門家(融合、エンティティ、アクション)とゲートを用いて、対応するテキスト要素に整合した多視点のビデオ表現を融合する。
- 文生成戦略(RKW、AKWE、MUW)はテキストを意味論的に焦点を当てた入力に変換する; MUWが実験で選択されている。
- 三つの視覚フレーム集約スキーム(平均プーリング、se-attention、自己注意)を、効率と性能のために異なる専門家/ゲートと組み合わせて使用。
- Dual Softmax Lossは標準の対称クロスエントロピーを改良し、相関行列を対角線(正解の一致)方向にバイアスするクロスディレクション事前Prを導入する。
- DSLは温度スケールされた類似度からPrを計算し、損失をクリップしてText-to-VideoとVideo-to-Textの相互高得点を優先するようにし、ワンライコード統合で実装。
- 実験ではCLIPベースの特徴(Bert、ViT)とMSR-VTT、MSVD、LSMDCでの標準的なトレーニングプロトコルを使用。
実験結果
リサーチクエスチョン
- RQ1多ストリーム、専門家ベースのアーキテクチャは、単一ストリームや二ストリームモデルよりビデオとテキストの内容をより良く整合させられるか。
- RQ2二重最適一致仮説と提案のDual Softmax Lossは、テキストとビデオ間の非対称マッチを修正することで検索精度を向上させるか。
- RQ3文生成戦略と視覚フレーム集約の選択は性能にどの程度影響するか。
- RQ4CAMoEは他の手法と組み合わせたりデータセットを跨いでも一般化性能は高いか。
- RQ5アブレーションは、将来の跨モーダル事前学習設計にどのような示唆を与えるか。
主な発見
- CAMoE(DSLなし)は、専門家に特化したタスク分解でSOTAを複数のベンチマークで達成し、頑健性を向上させる。
- DSLを用いると、CAMoEはさらなる改善を達成し、特にMSR-VTTでのR@1が以前のSOTAより約4.6%絶対改善。
- DSLはVideo-to-TextでText-to-Videoより大きな利得を生み出し、テキスト記述が具体性を欠く場合の内容の異質性に対処する。
- MSR-VTT、MSVD、LSMDCで、CAMoEとDSLは個別にも共同でもR@1、R@5、R@10の強力な性能向上と平均ランクの低下を示す。
- アブレーション研究は、異なるキャプションを持つマルチタスク入力と選択的ゲーティングが、単一タスクや完全にゲートされた構成より改善することを示す。
- DSLはCLIPベースの手法に適用しても性能を一貫して向上させることから、このアプローチの広範な適用性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。