QUICK REVIEW

[論文レビュー] VSE++: Improved Visual-Semantic Embeddings.

Fartash Faghri, David J. Fleet|arXiv (Cornell University)|Jul 18, 2017

Multimodal Machine Learning Applications被引用数 143

ひとこと要約

この論文では、画像キャプション検索の性能を向上させるために、元のランク損失を、最も難しいネガティブ例にのみペナルティを課すハードネガティブマイニング戦略に置き換えるVSE++を提案する。この手法は最先端の性能を達成し、MS-COCOではR@1が21%向上し、Flickr30KではR@1が2倍以上に向上した。

ABSTRACT

This paper investigates the problem of image-caption retrieval using joint visual-semantic embeddings. We introduce a very simple change to the loss function used in the original formulation by Kiros et al. (2014), which leads to drastic improvements in the retrieval performance. In particular, the original paper uses the rank loss which computes the sum of violations across the negative training examples. Instead, we penalize the model according to the hardest negative examples. We then make several additional modifications according to the current best practices in image-caption retrieval. We showcase our model on the MS-COCO and Flickr30K datasets through comparisons and ablation studies. On MS-COCO, we improve caption retrieval by 21% in R@1 with respect to the original formulation. Our results outperform the state-of-the-art results by 8.8% in caption retrieval and 11.3% in image retrieval at R@1. On Flickr30K, we more than double R@1 as reported by Kiros et al. (2014) in both image and caption retrieval, and achieve near state-of-the-art performance. We further show that similar improvements also apply to the Order-embeddings by Vendrov et al. (2015) which builds on a similar loss function.

研究の動機と目的

共同視覚的・意味的埋め込みを用いて画像キャプション検索の性能を向上させること。
元のランク損失の限界、すなわちすべてのネガティブ例の違反を平均化することの問題を解決すること。
トレーニング中に最も難しいネガティブ例に注目することの影響を調査すること。
現在の視覚言語タスクにおける最良の実践法を視覚的・意味的埋め込みに適応し、最先端の結果を達成すること。
提案手法がOrder-embeddingsのような関連モデルへ一般化可能であることを示すこと。

提案手法

元のランク損失を、各ポジティブペアに対して最も難しいネガティブ例にのみペナルティを課すハードネガティブマイニング手法に置き換える。
バッチハードマイニングや正規化技術などの、ビジョン・ランゲージタスクにおける標準的な深層学習の改善策を適用する。
画像とキャプションを共有埋め込み空間に埋め込むために、シアンプルネットワークアーキテクチャを用いる。
対照的損失を用い、ハードネガティブマイニングでポジティブペアとネガティブペアのマージンを向上させることでモデルを最適化する。
正規化と学習率スケジューリングを統合して、トレーニングの安定化と収束の改善を図る。
この手法をOrder-embeddingsに拡張し、そのより広範な適用可能性を示す。

実験結果

リサーチクエスチョン

RQ1損失関数で最も難しいネガティブ例に注目することで、すべてのネガティブ例の平均化よりも優れた検索性能が得られるか？
RQ2提案されたハードネガティブマイニング戦略は、元のランク損失と比較して、R@1およびR@5指標においてどのように異なるか？
RQ3ハードネガティブマイニングによる改善は、Order-embeddingsのような類似損失関数を用いる他のモデルに対しても一般化可能か？
RQ4標準的な深層学習のベストプラクティスは、画像キャプション検索における視覚的・意味的埋め込み性能をどの程度向上させるか？
RQ5提案手法はMS-COCO や Flickr30K といったベンチマークデータセットで、どの程度の性能向上を達成するか？

主な発見

MS-COCOでは、VSE++は元のVSEの定式化と比較して、キャプション検索のR@1を21%向上させた。
VSE++はMS-COCOで最先端の性能を達成し、元の最先端手法と比較して、キャプション検索で8.8%、画像検索で11.3%のR@1向上を達成した。
Flickr30Kでは、Kirosら（2014）が報告した元のVSEの定式化と比較して、VSE++はR@1性能を2倍以上に向上させた。
ベースラインからの著しい向上にもかかわらず、Flickr30Kでもほぼ最先端の性能を達成した。
ハードネガティブマイニングアプローチはOrder-embeddingsモデルに対しても効果的に一般化され、より広範な適用可能性が示された。
アブレーションスタディにより、ハードネガティブ損失が性能向上の主な要因であることが確認され、正規化やトレーニングの実践法による追加の改善も確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。