QUICK REVIEW

[論文レビュー] Neural Language Generation: Formulation, Methods, and Evaluation

Cristina Gârbacea, Qiaozhu Mei|arXiv (Cornell University)|Jul 31, 2020

Topic Modeling参考文献 508被引用数 23

ひとこと要約

本調査は、ニューラル言語生成の包括的かつ最新の概要を提供しており、一般的な生成、条件付き生成、制約付き生成という問題定式化を形式的に定義するとともに、RNN、seq2seq、VAE、GAN、トランスフォーマーなどの最先端のディーブラーニングアーキテクチャをレビューしている。本調査は、人間の判断と整合性を持つ、公平性、解釈可能性、参照なしの評価を考慮した、改善された自動評価指標の重要性を強調している。

ABSTRACT

Recent advances in neural network-based generative modeling have reignited the hopes in having computer systems capable of seamlessly conversing with humans and able to understand natural language. Neural architectures have been employed to generate text excerpts to various degrees of success, in a multitude of contexts and tasks that fulfil various user needs. Notably, high capacity deep learning models trained on large scale datasets demonstrate unparalleled abilities to learn patterns in the data even in the lack of explicit supervision signals, opening up a plethora of new possibilities regarding producing realistic and coherent texts. While the field of natural language generation is evolving rapidly, there are still many open challenges to address. In this survey we formally define and categorize the problem of natural language generation. We review particular application tasks that are instantiations of these general formulations, in which generating natural language is of practical importance. Next we include a comprehensive outline of methods and neural architectures employed for generating diverse texts. Nevertheless, there is no standard way to assess the quality of text produced by these generative models, which constitutes a serious bottleneck towards the progress of the field. To this end, we also review current approaches to evaluating natural language generation systems. We hope this survey will provide an informative overview of formulations, methods, and assessments of neural natural language generation.

研究の動機と目的

文脈や制約に基づいて、ニューラル自然言語生成の問題を一般的な生成、条件付き生成、制約付き生成に正式に定義・分類すること。
RNN、seq2seq、VAE、GAN、トランスフォーマーを含む、現代のテキスト生成で用いられるディープラーニング手法およびニューラルアーキテクチャの詳細なレビューを提供すること。
ニューラルテキスト生成における標準化された評価の欠如に応じて、既存の自動および人間による評価手法をレビューし、参照なしで、タスク固有の指標の必要性を強調すること。
一般化、長文脈における一貫性、少サンプル学習、および生成テキストにおけるバイアスや記憶の問題といった倫理的懸念を含む、主な未解決課題を特定すること。
人間の判断を補完し、NLGシステムの責任ある展開を支援する、説明可能で公平で、説明責任のある評価フレームワークの開発を提唱すること。

提案手法

テキスト生成を、確率の連鎖則を用いて、トークン列上の条件付きまたは無条件確率分布を学習する問題として形式化する。
テキスト生成を3つのカテゴリに分類する：(1) 一般的／自由テキスト生成、(2) 条件付き生成（入力表現に基づくもの）、(3) 制約付き生成（スタイル、内容、フォーマットの制約付き）。
RNN、LSTM、GRU、アテンション機構、トランスフォーマー、VAE、GAN、メモリ拡張ネットワークなどのシーケンス生成用のニューラルアーキテクチャをレビューする。
ゼロショットおよび少サンプル一般化を向上させるために、事前学習済み言語モデルとトランスファー学習技術の使用を提言する。
出力されたテキストをゴールドスタンダードの参照なしに、ソース意味表現と比較することで品質スコアを予測する神経ネットワークを用いた、参照なし評価戦略を導入する。
文通性、一貫性、多様性、事実の正確性を包括的に評価するために、複数の自動指標（例：BLEU、ROUGE、BERTScore）と人間評価の統合を強調する。

実験結果

リサーチクエスチョン

RQ1文脈、制約、入力条件に基づいて、ニューラル言語生成をどのように形式的に分類できるか？
RQ2多様で一貫性があり、文脈的に適切なテキストを生成するための、最も効果的なニューラルアーキテクチャとトレーニングパラダイムは何か？
RQ3なぜ自動評価は依然として生成テキストの主要なボトルネックであり、BLEU や ROUGE といった現在の指標の限界は何か？
RQ4高価な人間によるアノテーションに依存しないように、参照なし評価手法をどのように改善できるか？
RQ5公平性、解釈可能性、倫理的な使用を保証するための評価指標として、どのような指標が必要か？

主な発見

特にトランスフォーマーと大規模事前学習モデルを含むニューラルシーケンスモデルは、多様なタスクにおいて、流暢で一貫性のあるテキスト生成で最先端のパフォーマンスを達成している。
進展にもかかわらず、モデルはしばしば訓練データを記憶し、特にオープンエンド生成において長距離の一貫性や事実の整合性に困難を抱えることがある。
人間の判断と完全に相関する単一の自動指標は存在しない。したがって、BERTScore や ROUGE、パープレキシティなどの複数の指標を組み合わせることが、信頼性の高い評価に不可欠である。
意味的埋め込みを用いて生成テキストとソース入力を比較するような、参照なし評価手法は、アノテーションコストを削減する観点で有望であり、機械翻訳や対話システムにおいて特に有用である。
公平性、バイアス、解釈可能性を評価する指標の需要が高まっている。特に医療や法的文書生成といったハイリスク分野において重要である。
人間評価は依然としてゴールドスタンダードであるが、自動指標は人間の判断とある程度相関している場合にのみ、慎重に使用すべきである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。