[論文レビュー] Backward and Forward Language Modeling for Constrained Sentence Generation
本稿では、指定されたターゲット語を含む文を生成するために、ターゲット語の前後を独立してモデル化するバックワード・フォワード(B/F)言語モデルを提案する。同期的または非同期的なRNNを用いることで、標準的な逐次的言語モデルと同等の生成品質を達成するとともに、ターゲット語が任意の所定の位置に必ず出現することを保証する。
Recent language models, especially those based on recurrent neural networks (RNNs), make it possible to generate natural language from a learned probability. Language generation has wide applications including machine translation, summarization, question answering, conversation systems, etc. Existing methods typically learn a joint probability of words conditioned on additional information, which is (either statically or dynamically) fed to RNN's hidden layer. In many applications, we are likely to impose hard constraints on the generated texts, i.e., a particular word must appear in the sentence. Unfortunately, existing approaches could not solve this problem. In this paper, we propose a novel backward and forward language model. Provided a specific word, we use RNNs to generate previous words and future words, either simultaneously or asynchronously, resulting in two model variants. In this way, the given word could appear at any position in the sentence. Experimental results show that the generated texts are comparable to sequential LMs in quality.
研究の動機と目的
- 特定のハード制約付きの語を含む自然言語文を生成する課題に対処すること。
- 追加情報に条件付けられても、必要な語が実際に出現することを保証できない既存の言語モデルの限界を克服すること。
- ターゲット語を文の任意の位置に含む、滑らかで意味的に整合性のある文を生成する手法を開発すること。
- 制約を課しても、標準的な逐次的言語モデルと同等の生成品質を維持すること。
提案手法
- 与えられたターゲット語の周囲で文の生成プロセスを分割するバックワード・フォワード(B/F)言語モデルを提案する。
- 2つのRNNを用いる:1つはターゲット語より前の語を生成する(バックワード)、もう1つはターゲット語より後の語を生成する(フォワード)、両者ともターゲット語に条件付けられる。
- 2つのバージョンを実装する:同期的B/F(syn-B/F)、両RNNが並列に生成を行うもの、および非同期的B/F(asyn-B/F)、生成が逐次的に行われるもの。
- 両方のバックワードおよびフォワードRNNを、ターゲット語の埋め込みに条件付け、最終的な文にその語が含まれることを保証する。
- 全文の尤度を最大化するようにモデルを学習し、ターゲット語を所定の位置に固定する。
- 結合確率分解を用いる:p(w₁,…,wₜ₋₁, wₜ, wₜ₊₁,…,wₘ) = p(w₁,…,wₜ₋₁|wₜ) × p(wₜ) × p(wₜ₊₁,…,wₘ|wₜ),ここでwₜは制約付き語である。
実験結果
リサーチクエスチョン
- RQ1任意の位置に特定のターゲット語を必ず含むように設計された言語モデルは、その位置に関係なく実現可能か?
- RQ2B/F言語モデルの性能は、逐次的言語モデルと比較して、滑らかさとパープレキシティの観点でどう異なるか?
- RQ3非同期生成(asyn-B/F)は、同期的または別個の生成(sep-B/F)と比較して、制約付き生成タスクにおいてより優れた文品質をもたらすか?
- RQ4ランダムな語の分割はパープレキシティにどのような影響を及ぼすか?また、モデルは位置に依存しない制約をどのように処理するか?
主な発見
- 提案されたB/F言語モデルは、ターゲット語が文の任意の位置に含まれる文を効果的に生成でき、標準的な言語モデルの主な限界を克服した。
- ターゲット語が固定されている場合(パープレキシティ < 100)、B/Fモデルのパープレキシティは逐次的LMと同等であり、制約下でも強力なモデリング能力を示している。
- 非同期B/F(asyn-B/F)は、別個または同期バージョンよりも優れた文品質を達成し、逐次的LMと同等の滑らかさと整合性を実現した。
- 文の後半(t ≥ 4)の位置では、B/Fモデルのパープレキシティは逐次的LMとほぼ同一であり、長距離のモデリング能力が強いことを示している。
- 「systems」や「models」のような制約付き語に対して、文法的に正しいかつトピック関連の高い文を生成する点で、ベースラインを上回った。これは、逐次的LMがしばしばこれらの語を含められないことによる。
- ランダムな語の分割は不確実性を引き起こし、パープレキシティを上昇させるが、ターゲット語が事前に分かっている(オラクル設定)場合にはこの影響が緩和される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。