QUICK REVIEW

[論文レビュー] Actor-Critic Sequence Training for Image Captioning

Li Zhang, Flood Sung|arXiv (Cornell University)|Jun 29, 2017

Multimodal Machine Learning Applications参考文献 13被引用数 99

ひとこと要約

本論文は、Actor-Critic 強化学習を用いて画像キャプション生成モデルを直接最適化し、CIDEr のような微分不能な言語指標を最適化する。モデルアンサンブルを用いずに最先端の性能を達成する。

ABSTRACT

Generating natural language descriptions of images is an important capability for a robot or other visual-intelligence driven AI agent that may need to communicate with human users about what it is seeing. Such image captioning methods are typically trained by maximising the likelihood of ground-truth annotated caption given the image. While simple and easy to implement, this approach does not directly maximise the language quality metrics we care about such as CIDEr. In this paper we investigate training image captioning methods based on actor-critic reinforcement learning in order to directly optimise non-differentiable quality metrics of interest. By formulating a per-token advantage and value computation strategy in this novel reinforcement learning based captioning model, we show that it is possible to achieve the state of the art performance on the widely used MSCOCO benchmark.

研究の動機と目的

言語品質指標を直接最適化することで、尤度ベースの訓練よりも画像キャプション生成の改善を促す。
キャプション生成を RL 問題として扱うことで、Teacher forcing における露出バイアスに対処する。
各トークンの利得を用いた per-token アドバンテージを備える actor-critic フレームワークを開発し、キャプション生成を導く。
単一モデルを用いて MSCOCO で最先端の性能を示す。
強力な教師ありおよび RLベースのベースラインと評価・比較を行う。

提案手法

CNN の画像特徴と LSTM デコーダを用いたエンコーダ–デコーダとして画像キャプション生成をモデル化する。
キャプション生成を、行動が語のトークンであるマルコフ決定過程として定式化する。
トークン分布を生成するアクターネットワークと、状態値を推定する別のクリティックネットワークを使用する。
前方ビュー TD(1) 形式（lambda=1）を用いて各トークンのアドバンテージを算出し、方策勾配を導く。
報酬を最終キャプションの品質スコア（例: CIDEr）として定義し、TDターゲットを用いた方策勾配で誤差を逆伝播させる。
共同訓練前に、アクターをクロスエントロピー損失で事前訓練し、クリティックを固定アクターのサンプルで訓練する。

実験結果

リサーチクエスチョン

RQ1画像キャプション生成において、Actor-Critic 強化学習は非微分可能な言語指標を直接最適化できるか。
RQ2各トークンのアドバンテージと別個の価値ネットワークは、従来の RL 手法と比較して訓練の安定性と性能を向上させるか。
RQ3教師付きおよび他の RL 手法と比較して、RL ベースの訓練が MSCOCO のキャプション生成性能に与える影響は何か。

主な発見

提案された actor-critic モデルはモデルアンサンブルなしで MSCOCO で最先端の性能を達成（公式テストサーバーで3位にランク）。
開発セットでは、CIDEr-D を 1.007（教師ありベースライン）から 1.162 に向上させ、単一モデルのグリーディーデコードで達成。
アテンションベースおよびメモリ強化ベースラインと、いくつかの RL ベース手法を CIDEr-D および他の指標で上回る。
提案手法は、アテンションセルを必要とせず、モンテカルロサンプルが少ないことも一因として、いくつかの RL ベースラインと比較して訓練効率が高い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。