QUICK REVIEW

[論文レビュー] Fast Image Caption Generation with Position Alignment

Zhengcong Fei|arXiv (Cornell University)|Dec 13, 2019

Multimodal Machine Learning Applications参考文献 28被引用数 25

ひとこと要約

本稿では、物体検出結果の空間的位置を整列させるモジュールを導入することで、生成順序を制御し、文の生成をガイドする非自己回帰的画像キャプションモデルである FNIC を提案する。位置に敏感な粗いキャプションをモデル化し、非決定的推論戦略を用いることで、自己回帰的モデルと同等の性能を達成しながらも、ほぼ8倍の高速化を実現し、語の繰り返しや省略による誤りを顕著に低減した。

ABSTRACT

Recent neural network models for image captioning usually employ an encoder-decoder architecture, where the decoder adopts a recursive sequence decoding way. However, such autoregressive decoding may result in sequential error accumulation and slow generation which limit the applications in practice. Non-autoregressive (NA) decoding has been proposed to cover these issues but suffers from language quality problem due to the indirect modeling of the target distribution. Towards that end, we propose an improved NA prediction framework to accelerate image captioning. Our decoding part consists of a position alignment to order the words that describe the content detected in the given image, and a fine non-autoregressive decoder to generate elegant descriptions. Furthermore, we introduce an inference strategy that regards position information as a latent variable to guide the further sentence generation. The Experimental results on public datasets show that our proposed model achieves better performance compared to general NA captioning models, while achieves comparable performance as autoregressive image captioning models with a significant speedup.

研究の動機と目的

逐次的な語の生成による自己回帰的画像キャプションモデルの推論速度の遅さを解消すること。
目的語の分布を間接的にモデル化することに起因する、非自己回帰（NA）キャプションにおける文の自然さと正確性の問題を克服すること。
検出された物体からの空間的および意味的順序情報を明示的に組み込むことで、NAキャプションの品質を向上させること。
推論の曖昧さを低減し、文の整合性を向上させるために、位置順に整列した語を潜在的ガイドとして用いる推論戦略を開発すること。

提案手法

空間的位置に従って物体を順序付ける軽量なGRUベースの位置整列モジュールを導入し、粗いキャプション語を生成する。
順序付けられた粗い語を、最終的な非自己回帰的デコーダーの構造的ガイドとして用い、自然で整合性のある文を生成する。
粗い語の系列を潜在変数とみなして情報損失を低減する非決定的確率推論戦略を適用する。
標準的なNAデコーダーの入力（コピーされた視覚特徴）を、位置順に整列した物体記述に置き換えることで、視覚的構造と言語的構造の整合性を高める。
物体検出特徴を位置整列モジュールの入力として用いることで、生成された語の空間的グランドイングを可能にする。
視覚特徴と位置整列済みの粗いキャプションを条件として用いる非自己回帰的デコーダーを用いて、最終的な文を微調整する。

実験結果

リサーチクエスチョン

RQ1非自己回帰的画像キャプションが、自己回帰的モデルと同等の性能を達成しつつ、著しく推論速度を向上させることは可能か？
RQ2明示的な位置整列を組み込むことで、非自己回帰的キャプションの自然さと正確性はどのように向上するか？
RQ3粗く位置順に整列した語を潜在的ガイドとして用いることで、推論の曖昧さはどの程度低減され、文の品質は向上するか？
RQ4非決定的推論戦略は、意味的正確性と多様性を保つ観点で、決定的推論を上回る性能を発揮するか？

主な発見

FNICは、COCOおよびFlickr30kベンチマークで自己回帰的モデルと同等の性能を維持しながら、ほぼ8倍の高速な推論速度を達成した。
1層のGRUを用いた位置整列モジュールを搭載したモデルが、より大きな非自己回帰的モデル（例：1層のTransformer）を上回るキャプション品質を示し、位置ガイド付きの粗いキャプション生成の有効性を裏付けた。
GRUベースの整列を用いた FNIC は、COCO Karpathy テストスプリットにおいて、SCST や ADP-ATT、LSTM-A といった強力な自己回帰的モデルの多くを上回る性能を示した。
非決定的推論戦略は、決定的推論に比べて情報損失を低減したが、粗い語がすでに正確な場合にはその恩恵は限定的であった。
FNIC は自己回帰的モデルよりもより多様なキャプションを生成し、87.12%のユニークなキャプションと12.16%の語彙利用率を達成した。これは、Up-Down（61.58%のユニーク）や GCN-LSTM（83.22%のユニーク）よりも顕著に高い水準であった。
事例研究により、FNIC が語の繰り返しや物体の省略といった非自己回帰的モデルの代表的問題を効果的に軽減していることが確認された。これは、主に粗い語生成の誤りに起因する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。