[論文レビュー] Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects
本稿では、トレーニング中に登場しなかった新しいオブジェクトを記述できるように、CNN-RNNアーキテクチャにコピーメカニズムを統合した新しい画像キャプションフレームワークLSTM-Cを提案する。外部データセット上で事前学習されたオブジェクト検出器を活用することで、LSTM-Cはオブジェクト名を直接生成キャプションにコピーすることができ、MSCOCOおよびImageNetにおいて最先端の性能を達成し、新規オブジェクトキャプションの精度で17.8%の相対的向上を達成した。
Image captioning often requires a large set of training image-sentence pairs. In practice, however, acquiring sufficient training pairs is always expensive, making the recent captioning models limited in their ability to describe objects outside of training corpora (i.e., novel objects). In this paper, we present Long Short-Term Memory with Copying Mechanism (LSTM-C) --- a new architecture that incorporates copying into the Convolutional Neural Networks (CNN) plus Recurrent Neural Networks (RNN) image captioning framework, for describing novel objects in captions. Specifically, freely available object recognition datasets are leveraged to develop classifiers for novel objects. Our LSTM-C then nicely integrates the standard word-by-word sentence generation by a decoder RNN with copying mechanism which may instead select words from novel objects at proper places in the output sentence. Extensive experiments are conducted on both MSCOCO image captioning and ImageNet datasets, demonstrating the ability of our proposed LSTM-C architecture to describe novel objects. Furthermore, superior results are reported when compared to state-of-the-art deep models.
研究の動機と目的
- トレーニングデータに存在しないオブジェクト(すなわち新規オブジェクト)を記述できないという、従来の画像キャプションモデルの限界を解決すること。
- 一般公開のオブジェクト認識データセットからの知識をキャプションパイプラインに統合し、未観測オブジェクトへの一般化性能を向上させること。
- LSTMによる系列生成とオブジェクト名のコピーメカニズムを組み合わせたエンドツーエンドで学習可能なフレームワークを開発すること。
- コピーメカニズムが新規オブジェクトキャプションの性能を顕著に向上させることを示すこと、特に外部テキストデータと組み合わせた場合の有効性を検証すること。
提案手法
- フレームワークは、入力画像から視覚的特徴を抽出するためのCNNを使用し、その特徴をLSTMデコーダーに供給して文を生成する。
- オブジェクト検出は、外部データセット(例:ImageNet)で事前学習されたモデルを用いて実施され、画像内の候補オブジェクトのリストが得られる。
- LSTMデコーダーの上部にコピーレイヤーを導入し、検出されたオブジェクトの名前を出力文に直接コピーできるようにする。
- コピーメカニズムは、語彙と検出されたオブジェクトの両方の確率分布を計算するソフトアテンション機構を介して統合され、学習可能なトレードオフパラメータλを用いる。
- コピーメカニズムは、検出されたオブジェクトからの単語の微分可能なルーティングにより、交差エントロピー損失を用いてエンドツーエンドで学習される。
- 外部のペアリングのないテキストデータ(例:BNCおよびWikipedia)を用いて単語埋め込みを事前学習し、一般化性能と性能の向上を図る。
![Figure 1: An example of object recognition and image captioning. The input is an image, while the output is the detected objects and a natural sentence, respectively. (upper row: the detected objects in the image; middle row: the sentence generated by LRCN [ 4 ] image captioning approach; bottom row](https://ar5iv.labs.arxiv.org/html/1708.05271/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1コピーメカニズムは、トレーニングコーパスに存在しないオブジェクトを記述できるように、画像キャプションモデルの性能を向上させることができるか?
- RQ2外部オブジェクト検出モデルを統合することで、未観測オブジェクトへのキャプションモデルの一般化性能はどのように向上するか?
- RQ3キャプション生成プロセスにおいて、語彙からの単語生成と検出されたオブジェクトからのコピーパラメータの最適なトレードオフは何か?
- RQ4外部のペアリングのないテキストデータの使用は、新規オブジェクトキャプションの性能をさらに向上させるか?
- RQ5視覚的に一般的なオブジェクトに類似したオブジェクトカテゴリに対しても、コピーメカニズムはどれほど頑健か?
主な発見
- MSCOCOデータセットでは、LSTM-Cは新規オブジェクトの正確性が72.08%、F1スコアが16.39%を達成し、ベースラインのNOCモデルよりもそれぞれ1.4%および0.76%高い性能を示した。
- ImageNetデータセットでは、LSTM-CはNOCベースラインに対して17.8%の相対的精度向上を達成し、大規模な新規オブジェクトへの一般化性能が優れていることを示した。
- 8つの新規オブジェクトのうち6つで最高のF1スコアを達成し、λ ≈ 0.2のとき最良の性能が得られた。これは、生成とコピーパラメータの最適なバランスを示している。
- 外部テキストデータ(BNCおよびWikipedia)の導入により性能がさらに向上し、ワンホット + GloVe埋め込みを用いた場合、ImageNetでの正確性は31.11%に達した。
- 定性的な結果から、LSTM-Cは正確なオブジェクト名(例:「hydrant」ではなく「bus」)をキャプションに正しくコピーできており、意味的正確性が向上していることが示された。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。