[論文レビュー] Professor Forcing: A New Algorithm for Training Recurrent Networks
プロフェッサー・フォースィングは、RNNの生成(サンプリング)ダイナミクスを教師強制ダイナミクスと整合させる対立的訓練フレームワークを導入し、長期的な系列生成を改善し正則化として機能します。
The Teacher Forcing algorithm trains recurrent networks by supplying observed sequence values as inputs during training and using the network's own one-step-ahead predictions to do multi-step sampling. We introduce the Professor Forcing algorithm, which uses adversarial domain adaptation to encourage the dynamics of the recurrent network to be the same when training the network and when sampling from the network over multiple time steps. We apply Professor Forcing to language modeling, vocal synthesis on raw waveforms, handwriting generation, and image generation. Empirically we find that Professor Forcing acts as a regularizer, improving test likelihood on character level Penn Treebank and sequential MNIST. We also find that the model qualitatively improves samples, especially when sampling for a large number of time steps. This is supported by human evaluation of sample quality. Trade-offs between Professor Forcing and Scheduled Sampling are discussed. We produce T-SNEs showing that Professor Forcing successfully makes the dynamics of the network during training and sampling more similar.
研究の動機と目的
- 訓練系列を超えた長期的な系列生成の改善を動機付ける。
- RNNの訓練時ダイナミクスとサンプリング時ダイナミクスを不可分にする方法を導入する。
- ダイナミクスの一致が正則化として機能し、タスク全体で一般化を改善することを示す。
提案手法
- 生成器RNNをGAN様の設定で識別器と組み合わせ、教師強制と自由動作の挙動を識別させることで Professor Forcing を提案する。
- オープンループ(教師強制)とクローズドループ(自由動作)モードからの挙動列 B(x,y,θg) を定義する。
- 識別器を訓練してこれらの挙動を識別させ、生成器をデータ fit(NLL)と識別器を惑わせる(C_f, C_t)両方の目的で訓練する。
- 全挙動列を評価するために双方向RNN識別器を使用する。
- 更新ルールには生成器のNLL + C_f(および任意で C_t)と識別器の C_d を含める。
- 文字レベルの言語モデリング、逐次MNIST、手書き、原波形での声生成へ適用する。
実験結果
リサーチクエスチョン
- RQ1訓練時ダイナミクスとサンプリング時ダイナミクスを対戦的に整合させることで長期的な系列生成を改善できるか。
- RQ2Professor Forcing は再帰モデルを正則化し、領域を横断してテスト尤度を改善するか。
- RQ3教師強制と比較して Professor Forcing がサンプルの品質と多様性にどのような影響を与えるか。
- RQ4長期依存性モデリングはダイナミクス整合から最も恩恵を受けるタスクは何か。
- RQ5Professor Forcing の訓練時の実用上の考慮事項(識別器のバランス、訓練時間)は何か。
主な発見
| Method | MNLL(テストセット) |
|---|---|
| DBN 2hl (Germain et al., 2015) | ≈84.55 |
| NADE (Larochelle & Murray, 2011) | 88.33 |
| EoNADE-5 2hl (Raiko et al., 2014) | 84.68 |
| DLGM 8 leapfrog steps (Salimans et al., 2014) | 85.51 |
| DARN 1hl (Gregor et al., 2015) | 84.13 |
| DRAW (Gregor et al., 2015) | ≤80.97 |
| Pixel RNN (van den Oord et al., 2016) | 79.2 |
| Professor Forcing (ours) | 79.58 |
- Professor Forcing は訓練時ダイナミクスとサンプリング時ダイナミクスの隠れ状態の発散を抑制することを、T-SNE の視覚化によって示した。
- 文字レベルの Penn Treebank で Professor Forcing は検証時ビット/文字を 1.50 から 1.48 に改善。
- Professor Forcing は正則化として機能し、Sequential MNIST および音声合成タスクでテスト尤度を改善。
- 手書き生成では、人間の評価者が Teacher Forcing のサンプルより Professor Forcing のサンプルを好んだ。
- Sequential MNIST では、目的関数の評価において PixelRNN(79.2)と競合する MNLL(79.58)を Professor Forcing が達成。
- 識別器フェーズによる追加訓練時間が必要だが、収束を速め、サンプル品質を向上させる可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。