[論文レビュー] Exploiting Multiple Sequence Lengths in Fast End to End Training for Image Captioning
本論文は、任意のシーケンス長を処理する Expansion 機構を導入し、ExpansionNet v2 が offline および online の評価でベースラインを上回り、エンドツーエンドの訓練をより速く達成できることを示す。
We introduce a method called the Expansion mechanism that processes the input unconstrained by the number of elements in the sequence. By doing so, the model can learn more effectively compared to traditional attention-based approaches. To support this claim, we design a novel architecture ExpansionNet v2 that achieved strong results on the MS COCO 2014 Image Captioning challenge and the State of the Art in its respective category, with a score of 143.7 CIDErD in the offline test split, 140.8 CIDErD in the online evaluation server and 72.9 AllCIDEr on the nocaps validation set. Additionally, we introduce an End to End training algorithm up to 2.8 times faster than established alternatives. Source code available at: https://github.com/jchenghu/ExpansionNet_v2
研究の動機と目的
- 動機: 固定された入力シーケンス長は画像キャプション生成におけるステートレスなアーキテクチャのボトルネックになり得る。
- Forward で入力内容を可変長のシーケンスに分配し、Backward で元の長さへ戻す Expansion 機構を提案する。
- Static および Dynamic Expansion を活用し、従来の注意機構への過度な依存を避ける ExpansionNet v2 アーキテクチャを開発する。
提案手法
- Forward パスで入力を任意数の要素に展開し、Backward パスで元の長さへ戻す Expansion 機構を導入する。
- Forward Expansion および Backward Expansion のステップを用いて、Static Expansion と Dynamic Expansion(自己回帰および双方向の変種)を定義する。
- Dynamic Expansion で expansion クエリとバイアスを計算する BroadSum 演算子を使用する。
- Swin-Transformer バックボーンの上にエンコーダ-デコーダへ Expansion 層を統合する(ExpansionNet v2)。
- 2 段階の目的で訓練: クロスエントロピー損失の後に CIDEr-D 最適化強化学習(SCST)。
- バックボーンの凍結を含むエンドツーエンドの4段階訓練スケジュールを採用し、その後微調整を行う。
実験結果
リサーチクエスチョン
- RQ1処理時に可変長または拡張されたシーケンス長を許容することは、固定長のアテンションベースモデルと比較して画像キャプション性能を改善するか。
- RQ2ExpansionNet v2 は重い事前学習に依存せず、offline および online の評価で MS COCO 2014 で競争力のあるまたは最先端の結果を達成できるか。
- RQ3トレーニング速度と FLOPs の観点から Expansion 機構の計算的トレードオフはどの程度か。
- RQ4Static Expansion と Dynamic Expansion は個別におよび協調して性能にどのように寄与するか。
主な発見
- ExpansionNet v2 は MS COCO 2014 で offline が 143.7 CIDEr-D、online が 140.8 CIDEr-D に達成。
- ExpansionNet v2 は nocaps バリデーションセットで 72.9 AllCIDEr を達成。
- Static Expansion および Dynamic Expansion は指標を横断してベースラインを上回り、特に Dynamic Expansion が顕著な改善をもたらす。
- オンライン・オフラインの結果は、Karpathy 分割で ExpansionNet v2 がいくつかの単一モデルのベースラインを上回ることを示し、CIDEr-D の改善例を含む。
- 本モデルは他の多くの代替案よりエンドツーエンド訓練が速く、訓練時間は多くの非生成モデルより顕著に短く、生成モデルの多くより桁違いに速い。
- ExpansionNet v2 はデータ量がはるかに少なく、モデルサイズも小さいままで、最先端の V+L 前訓練モデルと競争力を保つ。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。