QUICK REVIEW

[論文レビュー] CNN+CNN: Convolutional Decoders for Image Captioning

Qingzhong Wang, Antoni B. Chan|arXiv (Cornell University)|May 23, 2018

Multimodal Machine Learning Applications参考文献 34被引用数 70

ひとこと要約

本論文は、RNNデコーダを畳み込みデコーダに置換したCNN+CNNフレームワークを提案し、画像キャプショニングで競合するBLEU/METEOR/CIDErスコアとより速い学習を実現し、特に階層的アテンションを用いた場合に顕著である。

ABSTRACT

Image captioning is a challenging task that combines the field of computer vision and natural language processing. A variety of approaches have been proposed to achieve the goal of automatically describing an image, and recurrent neural network (RNN) or long-short term memory (LSTM) based models dominate this field. However, RNNs or LSTMs cannot be calculated in parallel and ignore the underlying hierarchical structure of a sentence. In this paper, we propose a framework that only employs convolutional neural networks (CNNs) to generate captions. Owing to parallel computing, our basic model is around 3 times faster than NIC (an LSTM-based model) during training time, while also providing better results. We conduct extensive experiments on MSCOCO and investigate the influence of the model width and depth. Compared with LSTM-based models that apply similar attention mechanisms, our proposed models achieves comparable scores of BLEU-1,2,3,4 and METEOR, and higher scores of CIDEr. We also test our model on the paragraph annotation dataset, and get higher CIDEr score compared with hierarchical LSTMs

研究の動機と目的

RNNベースのデコーダをCNNベースのデコーダへ置換して画像キャプショニングの並列計算を可能にする動機づけ。
視覚CNNと注意機構を備えた言語CNNを接続するCNN+CNNアーキテクチャを提案する。
画像領域と言語概念の整合性を改善する階層的アテンションモジュールを導入する。
言語CNNの幅、深さ、アテンションがキャプション品質に与える影響を体系的に研究する。
MSCOCO、Flickr30k、段落注釈データセット（PAD）での性能を示し、最先端手法と比較する。

提案手法

ビジュアルモジュールとして全結合層を持たないVGG-16に基づく画像特徴抽出を用いる。
因果的でゲート付き畳み込み層（GLU）を用いて文を表現する言語CNNを用いて文脈をモデル化する。
画像特徴と言語概念の間のドット積アテンションを介したアテンションモジュールを組み込み、アテンテッド特徴を形成する。
アテンション特徴と言語概念を融合して次の語をソフトマックス出力で予測する予測モジュールを採用する。
階層的アテンションを任意で適用し、下位レベルから上位レベルの言語CNNへアテンションマップを流すことでガイダンスを洗練する。
クロスエントロピー損失とL2正則化で学習する；推論はgreedy語選択を用いた前向き伝播。

実験結果

リサーチクエスチョン

RQ1CNNベースのデコーダは画像キャプショニングにおいてRNN/LSTMベースのデコーダに匹敵するまたは上回る性能を発揮できるか。
RQ2階層的アテンションは視覚領域と言語概念の整合性を改善し、キャプション品質を向上させるか。
RQ3言語CNNの幅、深さ、カーネルサイズはキャプション生成性能と必要受容野にどのような影響を与えるか。
RQ4CNN+CNNフレームワークはNICより学習が速く、競争的な指標を維持できるか。
RQ5段落レベルのキャプショニングは文レベルのデータセットと比較してどのように適用できるか。

主な発見

モデル	B-1	B-2	B-3	B-4	M	R	C
DeepVS	0.625	0.450	0.321	0.230	0.195	-	0.660
m-RNN	0.670	0.490	0.350	0.250	-	-	-
NIC	0.666	0.461	0.329	0.246	-	-	-
LRCN	0.697	0.519	0.380	0.278	0.229	0.508	0.837
Hard-ATT	0.718	0.504	0.357	0.250	0.230	-	-
Soft-ATT	0.707	0.492	0.344	0.243	0.239	-	-
Ours (w/o hier-att)	0.688	0.513	0.370	0.265	0.234	0.507	0.839
Ours (w/ hier-att)	0.685	0.511	0.369	0.267	0.234	0.510	0.844

階層的アテンションの有無を問わず、CNN+CNNはMSCOCOおよびFlickr30kで競争力のあるBLEU、METEOR、ROUGE-L、CIDErスコアを達成し、階層アテンションを用いるとCIDErが改善される。
学習速度が向上：階層アテンションなしの6層CNNは同一ハードウェアでNICより約3倍速く学習。
階層的アテンションは非階層モデルと比べて一貫してスコアを改善し、特にMSCOCOとFlickr30kでCIDErとMETEORを向上。
カーネル幅と深さの実験では、MSCOCO/Flickr30kにおいて6層ネットワークでカーネルサイズ3と階層アテンションが有効であり、カーネルサイズを大きくすると非階層設定が利益を得る。
PADデータセットでは、長いキャプションはカーネル幅の調整によって利益を得やすく、カーネルサイズ7がCIDErの向上をもたらす。
視覚アテンションマップは、予測語に対応する画像領域に意味のある焦点を示し、複数オブジェクト場面でのトレードオフを明らかにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。