[論文レビュー] Narrative Interpolation for Generating and Understanding Stories
本稿では、開始文と目的の終了文を条件として、微調整されたGPT-2モデルとRoBERTaベースの整合性再ランク付けモジュールを用いて、一貫性があり忠実な物語を生成する物語補間手法を提案する。人的評価では、一貫性、忠実性、好みの観点で先行する物語誘導型手法を上回り、ユーザーの手動入力も最小限に抑えられる。
We propose a method for controlled narrative/story generation where we are able to guide the model to produce coherent narratives with user-specified target endings by interpolation: for example, we are told that Jim went hiking and at the end Jim needed to be rescued, and we want the model to incrementally generate steps along the way. The core of our method is an interpolation model based on GPT-2 which conditions on a previous sentence and a next sentence in a narrative and fills in the gap. Additionally, a reranker helps control for coherence of the generated text. With human evaluation, we show that ending-guided generation results in narratives which are coherent, faithful to the given ending guide, and require less manual effort on the part of the human guide writer than past approaches.
研究の動機と目的
- 最小限のユーザー入力で一貫性があり論理的整合性のある物語を生成する課題に取り組み、ユーザーが指定した物語の終わりに忠実であることを保証すること。
- キーフレーズ選択に敏感で高用量のユーザー作業を要する複雑な手作業による物語ラインの依存度を低減すること。
- 整合性再ランク付けモジュールを導入することで、一貫性のないまたは矛盾する出力をフィルタリングし、物語の品質を向上させること。
- 単一の終了文が、複数キーフレーズからなる物語ラインに比べ、より強固で直感的な制御信号として機能できるかどうかを検証すること。
提案手法
- モデルは、前文と目的の終了文の両方を条件として、中間の出来事の補間を行うGPT-2ベースの生成器を用い、文脈構造は [終了] + [生成された中間部] + [開始] である。
- モデルは、与えられた開始文と終了文の間のギャップを埋める1文を生成することを学習しており、生成プロセスは自己回帰的かつ反復的である。
- RoBERTaベースの整合性再ランク付けモジュールを適用し、最高品質の物語候補をランク付け・選択し、一貫性のないまたは矛盾する出力を除外する。
- モデルは、完全な物語ラインを必要としないゼロショット設定で、(開始, 終了)ペアから物語を生成することで評価される。
- 公平な比較のため、人間が作成した物語ラインを入力とする再定式化されたPlan-and-Write (paw)モデルと比較する。
- モデルはROCStoriesデータセットで微調整され、Rakeアルゴリズムを用いて文の後続部分からキーフレーズを抽出することで、学習ペアが構築される。
実験結果
リサーチクエスチョン
- RQ1複数キーフレーズからなる物語ラインと比較して、単一の終了文は、一貫性があり忠実な物語生成のための効果的で強固な制御信号として機能できるか?
- RQ2開始文と終了文の両方を条件として用いることで、物語生成における物語の一貫性と論理的整合性が向上するか?
- RQ3RoBERTaベースの整合性再ランク付けモジュールは、一貫性のないまたは矛盾する出力をフィルタリングすることで、生成物語の品質をどの程度向上させるか?
- RQ4人間による評価において、終了文誘導型生成は物語ライン誘導型生成と比較して、一貫性、忠実性、全体的な好みの観点でどの程度優れているか?
主な発見
- 終了文誘導型モデル(interpol)は、人的評価において、NoRankingベースライン(GPT-2のみ)を著しく上回り、61.1%の物語が一貫性があると評価され、全体で58.9%が好まれた。
- 整合性再ランク付けモジュールにより、一貫性のない物語の割合が減少し、interpolが生成した物語の83.4%が終了文に忠実であると評価されたのに対し、pawベースラインでは33.3%にとどまった。
- 全体的な好みの観点で、人間はinterpolが生成した物語をpawモデルの出力よりも50.7%のケースで好んだ。一貫性があると評価された割合は44.4%、ガイドに忠実であると評価された割合は74.4%だった。
- 終了文を条件として与えた場合、全物語生成におけるワードピece perplexityは7.53に低下し、終了文ガイドの情報量の高さが裏付けられた。
- 物語ラインベースのアプローチに比べ、ユーザーの手作業が少なく済む。キーフレーズの系列ではなく、単一の終了文のみを入力すればよい。
- 本手法は低特徴性の入力に対しても頑健であり、キーフレーズが曖昧または不適切に選ばれた場合に物語ライン誘導型モデルで見られる失敗事例を回避できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。