[論文レビュー] Controllable Neural Story Generation via Reinforcement Learning.
本稿では、物語コーパスからの報酬形状を用いて事前学習済み言語モデルが一貫性があり目的志向の物語のプロットを生成するのを支援する強化学習ベースの手法を提案する。中間報酬を逆誤差伝搬することで、自動評価指標および人間評価によって検証されたように、ベースライン手法よりもより妥当な出来事の進行を示す物語を生成するようモデルが学習する。
Language-modeling--based approaches to story plot generation attempt to construct a plot by sampling from a language model (LM) to predict the next character, word, or sentence to add to the story. LM techniques lack the ability to receive guidance from the user to achieve a specific goal, resulting in stories that don't have a clear sense of progression and lack coherence. We present a reward-shaping technique that analyzes a story corpus and produces intermediate rewards that are backpropagated into a pre-trained LM in order to guide the model towards a given goal. Automated evaluations show our technique can create a model that generates story plots which consistently achieve a specified goal. Human-subject studies show that the generated stories have more plausible event ordering than baseline plot generation techniques.
研究の動機と目的
- 言語モデルを用いたニューラル物語生成における一貫性および目的志向性の欠如に対処すること。
- 生成プロセスに外部報酬を組み込むことで、ユーザーがガイドする物語生成を可能にすること。
- 物語コーパスから中間報酬を学習することで、物語プロットの進行を改善すること。
- 自動評価指標および人間評価を通じて、手法の有効性を評価すること。
提案手法
- 本手法は、物語生成のための生成ネットワークとして事前学習済み言語モデルを用いる。
- 物語コーパスを分析して物語構造に基づいた中間報酬を抽出する報酬形状技術を導入する。
- これらの中間報酬を用いて強化学習により言語モデルを訓練し、生成中に報酬の逆誤差伝搬を可能にする。
- 報酬関数は、一貫性のある出来事の順序付けと指定された目的への進行を促進するように設計されている。
- 報酬を逆誤差伝搬して生成方策を最適化するため、方策勾配法を用いてモデルをファインチューニングする。
実験結果
リサーチクエスチョン
- RQ1物語コーパスからの報酬形状は、ニューラル物語生成の一体性および目的志向性を向上させることができるか?
- RQ2提案手法は、ベースライン手法よりも物語プロットの出来事の順序付けがより妥当なものになるか?
- RQ3強化学習を用いることで、モデルは指定された目的に一致する物語を一貫して生成できるか?
主な発見
- 自動評価によって確認されたように、提案手法は指定された目的を一貫して達成する物語プロットを生成する。
- 人間評価では、生成された物語がベースライン手法よりも著しく出来事の順序付けが妥当であることが示された。
- 中間報酬の統合のおかげで、物語の進行における一貫性が向上した。
- 報酬形状技術により、各物語に対して明示的な教師信号を必要とせずに、言語モデルを望ましい物語結果へと導くことができた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。