QUICK REVIEW

[論文レビュー] Twin Networks: Matching the Future for Sequence Generation

Dmitriy Serdyuk, Nan Rosemary Ke|arXiv (Cornell University)|Aug 22, 2017

Speech Recognition and Synthesis参考文献 40被引用数 30

ひとこと要約

この論文では、生成的RNNの訓練正則化手法TwinNetを紹介している。TwinNetは、逆方向のRNNを用いてシーケンスを逆順に予測させ、前向きと後向きの隠れ状態を一致させることで、長期依存関係のモデリングを向上させる。この手法は、音声認識で9%の相対的改善を達成し、画像キャプション生成でも顕著な向上を示すが、推論時のオーバーヘッドは最小限に抑えられる。後向きネットワークは訓練後には破棄されるため、元のモデルの効率性が保たれる。

ABSTRACT

We propose a simple technique for encouraging generative RNNs to plan ahead. We train a "backward" recurrent network to generate a given sequence in reverse order, and we encourage states of the forward model to predict cotemporal states of the backward model. The backward network is used only during training, and plays no role during sampling or inference. We hypothesize that our approach eases modeling of long-term dependencies by implicitly forcing the forward states to hold information about the longer-term future (as contained in the backward states). We show empirically that our approach achieves 9% relative improvement for a speech recognition task, and achieves significant improvement on a COCO caption generation task.

研究の動機と目的

自己回帰的シーケンス生成において、長期依存関係をモデリングする課題に取り組む。これは、1ステップ先予測の訓練目的関数により、モデルが局所的な相関関係に集中してしまうためである。
前向きRNNが将来の内容を暗黙の計画によって予測できるようにすることで、生成シーケンスのグローバルな一貫性を向上させることを目的とする。
推論やサンプリングの複雑さを変更しない、シンプルで効率的な正則化手法を開発することを目的とする。
音声認識、画像キャプション、言語モデリング、順序付きMNIST生成を含む多様なタスクにおいて、この手法の実証的妥当性を検証することを目的とする。

提案手法

前向きネットワークとパラメータ共有のない別個の後向きRNNを訓練し、入力シーケンスを逆順に予測する。
時間tにおける前向き隠れ状態が、同じ時刻における後向き隠れ状態と一致するよう正則化損失を導入する。
隠れ状態間の一致損失を、学習可能なメトリックまたはL2距離を用いて計算する。
標準的な交差エントロピー損失（シーケンス生成用）と、前向きおよび後向き状態間の一致損失を組み合わせた目的関数を最適化する。
推論およびサンプリング時には後向きネットワークを破棄し、元のモデルの効率性を維持する。
音声対テキスト変換、画像キャプション、言語モデリング、順序付きMNISTの両方の条件付きおよび非条件付き生成タスクにこの手法を適用する。

実験結果

リサーチクエスチョン

RQ1前向きおよび後向きRNNの隠れ状態を一致させることで、シーケンス生成における長期依存関係のモデリングが向上するか？
RQ2この正則化手法は、推論コストを増加させることなく、生成シーケンスのグローバルな一貫性を向上させるか？
RQ3局所的相関関係が強いタスクを含め、多様なシーケンス生成タスクにおいて、この手法はどのように性能を発揮するか？
RQ4言語モデリングのような高エントロピーなタスクにおいて、一致損失はモデル性能にどのような影響を与えるか？
RQ5ピクセルRNNやWaveNetのように、高コストなサンプリングを要するモデルに対しても、この手法は効果的に適用可能か？

主な発見

TwinNetは音声認識タスクで9%の相対的改善を達成し、長期依存関係のモデリングが向上したことを示した。
COCO画像キャプションタスクにおいても顕著な性能向上を示し、生成キャプションのグローバルな一貫性が向上した。
順序付きMNISTでは、ベースラインLSTMと比較してテスト損失を0.52 nats低減し、ドロップアウトを組み合わせるとさらなる向上が得られた。
Penn TreebankおよびWikiText-2では、AWD-LSTMと比較してテストパープレキシティが0.5～0.9ポイント低下し、言語モデリングにおいて一貫した向上が確認された。
一致損失は語彙頻度と負の相関を示しており、珍しい語やより予測困難な語に対して高い正則化が行われていることが示唆された。
推論時には後向きネットワークが破棄されたため、ベースラインと同等の計算コストが維持され、高コストな自己回帰的モデルに対しても適していることがわかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。