Skip to main content
QUICK REVIEW

[論文レビュー] Regularizing RNNs for Caption Generation by Reconstructing The Past with The Present

Xinpeng Chen, Lin Ma|arXiv (Cornell University)|Mar 30, 2018
Multimodal Machine Learning Applications参考文献 37被引用数 27
ひとこと要約

本稿では、過去の隠れ状態を現在の隠れ状態から再構築することで、系列モデリングを向上させる、RNN正則化手法であるAuto-Reconstructor Network (ARNet) を提案する。時間的依存性を強化し、訓練時と推論時の乖離を低減することで、画像キャプション生成、コードキャプション、および長系列タスク(例:並べ替えMNIST)において、顕著なBLEU-4の向上と長期依存性学習の向上を達成し、最先端の結果を実現した。

ABSTRACT

Recently, caption generation with an encoder-decoder framework has been extensively studied and applied in different domains, such as image captioning, code captioning, and so on. In this paper, we propose a novel architecture, namely Auto-Reconstructor Network (ARNet), which, coupling with the conventional encoder-decoder framework, works in an end-to-end fashion to generate captions. ARNet aims at reconstructing the previous hidden state with the present one, besides behaving as the input-dependent transition operator. Therefore, ARNet encourages the current hidden state to embed more information from the previous one, which can help regularize the transition dynamics of recurrent neural networks (RNNs). Extensive experimental results show that our proposed ARNet boosts the performance over the existing encoder-decoder models on both image captioning and source code captioning tasks. Additionally, ARNet remarkably reduces the discrepancy between training and inference processes for caption generation. Furthermore, the performance on permuted sequential MNIST demonstrates that ARNet can effectively regularize RNN, especially on modeling long-term dependencies. Our code is available at: https://github.com/chenxinpeng/ARNet

研究の動機と目的

  • 訓練時と推論時の乖離に起因する、RNNベースのキャプション生成における露呈バイアスと一般化性能の低さを是正すること。
  • 特に長距離依存性を持つ系列タスクにおいて、RNNの長期依存性モデリングを向上させること。
  • 隣接する隠れ状態を再構築メカニズムによって明示的に接続することで、RNNの遷移ダイナミクスを正則化すること。
  • エンコーダ・デコーダアーキテクチャを変更せずに、画像およびソースコードキャプションを含む多様なキャプションタスクにおける性能向上を図ること。
  • 既存のRNNベースのキャプションフレームワークに容易に統合可能な、シンプルでエンドツーエンドで学習可能なモジュールを提供すること。

提案手法

  • ARNetは、主なデコーダRNNの現在の隠れ状態 $h_t$ を用いて、以前の隠れ状態 $h_{t-1}$ を再構築する別個のLSTMネットワークである。
  • 再構築損失は訓練時に最小化され、$h_t$ が $h_{t-1}$ からの情報を保持・符号化するよう促進され、結果としてRNNの遷移ダイナミクスが正則化される。
  • ARNetは主なエンコーダ・デコーダフレームワークとエンドツーエンドで学習され、キャプション生成の標準的な交差エントロピー損失に加えて再構築損失が追加される。
  • アテンションメカニズムと互換性があり、画像およびコードキャプションタスクの両方へ適用可能である。
  • 標準的なベンチマーク(MS-COCO、HabeasCorpus、並べ替え順序MNIST)を用い、BLEU-4 やテスト精度といった標準指標で評価されている。
  • 並べ替え順序MNISTでは2段階の訓練戦略を採用:まずエンコーダLSTMを事前学習し、その後エンコーダとARNetを共同で微調整する。

実験結果

リサーチクエスチョン

  • RQ1現在の隠れ状態から過去の隠れ状態を再構築することで、RNNベースのキャプション生成性能が向上するか?
  • RQ2ARNetは、系列生成におけるRNNの訓練時と推論時の乖離を効果的に低減するか?
  • RQ3ARNetは、特に並べ替えMNISTのような挑戦的なタスクにおいて、系列データの長期依存性モデリングを向上させることができるか?
  • RQ4ゾーンアウトや再帰的ドロップアウトといった既存の正則化手法と比較して、ARNetは一般化性能およびロバスト性において優れているか?
  • RQ5ARNetは、画像やソースコードといった異なるモodalなタスクにおいて、キャプション生成タスクの性能を向上させるか?

主な発見

  • HabeasCorpusコードキャプションデータセットでは、ARNetはベースラインモデルに対して36.36%の相対的BLEU-4向上を達成し、スケジュールドサンプリングやゾーンアウトを顕著に上回った。
  • アテンションを搭載しないARNetバージョンでも、BLEU-4で23.40%の相対的向上を示し、アテンション機構がなくても有効であることが実証された。
  • 平均コアセンター距離 ($d_{\text{mc}}$) は0.643から0.641に、ポイントワイズ距離 ($d_{\text{pw}}$) は0.722から0.699に低下し、訓練時と推論時の乖離が軽減されたことが示された。
  • 並べ替え順序MNISTタスクでは、ARNetが93.3%のテスト精度を達成し、再帰的ドロップアウト(92.5%)とゾーンアウト(93.1%)を上回り、優れた長期依存性モデリング能力を示した。
  • アテンションを搭載したARNetバージョンでは、$d_{\text{mc}}$ が0.322、$d_{\text{pw}}$ が0.465に低下し、複雑なモデルにおける露呈バイアスの強力な緩和が確認された。
  • ARNetは複数のベンチマークで一貫して性能向上を示し、視覚的およびコードキャプションタスクの両方において汎用性と有効性を確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。