QUICK REVIEW

[論文レビュー] Dual-Path Convolutional Image-Text Embedding.

Zhedong Zheng, Liang Zheng|arXiv (Cornell University)|Nov 15, 2017

Multimodal Machine Learning Applications参考文献 36被引用数 47

ひとこと要約

本稿では、ReLUおよびバッチ正規化を用いたエンド・ツー・エンドで学習可能なCNNを用いて、視覚的および言語的特徴を共同最適化する、二重パス型畳み込みニューラルネットワークを提案する。インスタンス損失と大マージン最適化を導入し、言語的個人検索で最先端の性能を達成するとともに、Flickr30kおよびMSCOCOでも競争力のある結果を示した。

ABSTRACT

This paper considers the task of matching images and sentences. The challenge consists in discriminatively embedding the two modalities onto a shared visual-textual space. Existing work in this field largely uses Recurrent Neural Networks (RNN) for text feature learning and employs off-the-shelf Convolutional Neural Networks (CNN) for image feature extraction. Our system, in comparison, differs in two key aspects. Firstly, we build a convolutional network amenable for fine-tuning the visual and textual representations, where the entire network only contains four components, i.e., convolution layer, pooling layer, rectified linear unit function (ReLU), and batch normalisation. End-to-end learning allows the system to directly learn from the data and fully utilise the supervisions. Secondly, we propose instance loss according to viewing each multimodal data pair as a class. This works with a large margin objective to learn the inter-modal correspondence between images and their textual descriptions. Experiments on two generic retrieval datasets (Flickr30k and MSCOCO) demonstrate that our method yields competitive accuracy compared to state-of-the-art methods. Moreover, in language person retrieval, we improve the state of the art by a large margin. Code is available at this https URL com/layumi/Image-Text-Embedding

研究の動機と目的

画像文の照合のための共有空間における判別的視覚的・言語的埋め込みの課題に取り組む。
従来の方法におけるRNNベースのテキストエンコーダーおよびオフ・ザ・シェルフのCNNの限界を克服する。
軽量で完全に畳み込み型のアーキテクチャを用いて、視覚的および言語的表現のエンド・ツー・エンド学習を可能にする。
大マージン目的関数を用いた新しいインスタンス損失により、モード間の対応関係学習を向上させる。

提案手法

モデルは、画像およびテキストの両ストリームに共通するコンponent（畳み込み層、ReLU活性化関数、バッチ正規化、プーリング層）を備えた二重パス型アーキテクチャを採用する。
ネットワーク全体がエンド・ツー・エンドで学習可能であり、完全な監督信号を用いて生データから直接最適化が可能である。
インスタンス損失が導入され、各画像・テキストペアを独自のクラスとして扱い、判別的学習を強化する。
損失は大マージン目的関数と組み合わせられ、モード間の整合性を強化し、一般化性能を向上させる。
バックプロパゲーションを用いて、監督的対照学習の原則に従ってエンド・ツー・エンドで学習される。

実験結果

リサーチクエスチョン

RQ1RNNを用いない完全に畳み込み型のネットワークが、共同視覚的・言語的表現を効果的に学習できるか。
RQ2標準的な対照損失と比較して、大マージン最適化を施したインスタンス損失は、クロスモーダル照合にどのように寄与するか。
RQ3事前学習済みRNNおよびオフ・ザ・シェルフのCNNを用いたモデルと比較して、軽量なCNNアーキテクチャのエンド・ツー・エンド学習が優れた性能を発揮するか。
RQ4本手法は、ゼロショットおよび言語的個人検索を含む多様な検索タスクにどの程度一般化可能か。

主な発見

Flickr30kおよびMSCOCOの検索ベンチマークにおいて、競争力ある性能を達成し、最先端の結果と一致した。
言語的個人検索において、顕著に最先端の性能を向上させ、ゼロショット設定への一般化能力が優れていることを示した。
エンド・ツー・エンドの学習方式により、事前学習済みコンponentsを用いたモデルよりも優れた特徴の整合性が達成された。
大マージン目的関数を用いたインスタンス損失は、特に細分化された照合タスクにおいて判別能力を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。