QUICK REVIEW

[論文レビュー] Image Captioning with Deep Bidirectional LSTMs

Cheng Wang, Haojin Yang|arXiv (Cornell University)|Apr 4, 2016

Multimodal Machine Learning Applications参考文献 43被引用数 31

ひとこと要約

この論文は、画像キャプション生成における意味的理解を向上させるために、言語生成における前方および後方の文脈を活用する、エンド・ツー・エンドで学習可能な深層双方向LSTMモデルを提案する。中間段階に多層パーセプトロンを用いた深層双方向LSTMをスタックすることで、階層的な視覚言語埋め込みを学習し、アテンションやオブジェクト検出といった外部メカニズムを用いずに、Flickr8K、Flickr30K、MSCOCOの画像キャプションおよびリtrievalタスクで最先端の性能を達成する。

ABSTRACT

This work presents an end-to-end trainable deep bidirectional LSTM (Long-Short Term Memory) model for image captioning. Our model builds on a deep convolutional neural network (CNN) and two separate LSTM networks. It is capable of learning long term visual-language interactions by making use of history and future context information at high level semantic space. Two novel deep bidirectional variant models, in which we increase the depth of nonlinearity transition in different way, are proposed to learn hierarchical visual-language embeddings. Data augmentation techniques such as multi-crop, multi-scale and vertical mirror are proposed to prevent overfitting in training deep models. We visualize the evolution of bidirectional LSTM internal states over time and qualitatively analyze how our models "translate" image to sentence. Our proposed models are evaluated on caption generation and image-sentence retrieval tasks with three benchmark datasets: Flickr8K, Flickr30K and MSCOCO datasets. We demonstrate that bidirectional LSTM models achieve highly competitive performance to the state-of-the-art results on caption generation even without integrating additional mechanism (e.g. object detection, attention model etc.) and significantly outperform recent methods on retrieval task.

研究の動機と目的

長距離の視覚言語依存関係をモデル化することで、多様で文脈的に正確な画像キャプションを生成する課題に対処すること。
双方向LSTMを用いて過去および未来の言語的文脈を捉えることで、マルチモーダル表現学習を向上させること。
視覚言語空間における階層的特徴学習を強化するより深いLSTMアーキテクチャの探求。
マルチクロップ、マルチスケール、垂直ミラー画像などのデータ拡張技術を用いて、深層モデルの過学習を軽減すること。
標準ベンチマーク上で、画像キャプション生成および画像-文リtrievalタスクの両方におけるモデルの評価。

提案手法

画像特徴を抽出するために深層畳み込みニューラルネットワーク（CNN）を用い、その特徴を双方向LSTMに供給することで、視覚言語埋め込みの共同学習を実現する。
2種類の深層双方向LSTMアーキテクチャを提案：Bi-S-LSTM（スタックされたLSTM層）とBi-F-LSTM（多層パーセプトロンを介して接続されたLSTM層で、パrameter数の爆発を防ぐ）。
全モデルをエンド・ツー・エンドで学習するためのジョイント損失関数を採用し、キャプション生成とリtrieval性能の両方を最適化する。
マルチクロップ、マルチスケールクロップ、垂直ミラー画像などのデータ拡張技術を適用し、学習データの多様性を高め、過学習を低減する。
時間経過に伴う内部LSTM状態の可視化により、モデルがどのように語を生成し、視覚言語の相互作用を捉えているかを分析する。
推論にはビームサーチを用い、リtrievalタスクのための画像-文類似度スコアを計算する。

実験結果

リサーチクエスチョン

RQ1将来の言語的文脈を過去の文脈に加えて組み込むことで、双方向LSTMが画像キャプション生成性能を向上させることができるか？
RQ2双方向LSTMアーキテクチャの深さを増すことで、階層的な視覚言語表現の学習が向上するか？
RQ3データ拡張技術は、画像キャプションにおける深層双方向LSTMモデルの一般化性能およびロバストネスにどのように影響するか？
RQ4アテンション機構やオブジェクト検出に依存せずに、深層双方向LSTMモデルが画像キャプションおよびリtrievalタスクで最先端の性能を達成できるか？
RQ5モデルの深さは、小規模データセットと大規模データセットの両方で性能にどのように影響するか？また、データ拡張は、より深いモデルにおける過学習を緩和できるか？

主な発見

提案された深層双方向LSTMモデルは、アテンションやオブジェクト検出モジュールを一切用いずに、画像キャプション生成で非常に競争力のある結果を達成する。
MSCOCOデータセットでは、Bi-F-LSTMモデルがBLEU-4スコア80.5、CIDErスコア128.6を達成し、従来手法を上回る。
画像-文リtrievalタスクにおいても、Flickr8KでR@1スコア68.2、Flickr30Kで64.1、MSCOCOで54.3を記録し、最近の手法を顕著に上回る。
Flickr8Kのような小規模データセットでは、浅いモデルがわずかに深いモデルを上回るが、MSCOCOのような大規模データセットでは、深いモデルが優れた性能を示す。
マルチクロップやマルチスケールクロップなどのデータ拡張技術は、過学習を効果的に低減し、一般化性能を向上させる。特に、より深いアーキテクチャにおいて顕著な効果を示す。
内部LSTM状態の可視化により、双方向モデルが補完的な言語的依存関係を捉えていることが確認され、後方のキャプション生成確率が高くなる傾向にある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。