QUICK REVIEW

[論文レビュー] Real or Fake? Learning to Discriminate Machine from Human Generated Text

Anton Bakhtin, Sam Gross|arXiv (Cornell University)|Jun 7, 2019

Topic Modeling参考文献 45被引用数 32

ひとこと要約

本稿では、事前学習済みの自己回帰的言語モデルの残差空間でエネルギーに基づくモデル（EBM）を訓練し、人間が生成した本文と機械生成本文を区別する手法を提案する。生成された本文をネガティブ例として用いることで、EBMは本物の本文に対して低いエネルギーを割り当てるように学習し、さまざまな生成アーキテクチャやデータセットに対して優れた一般化性能を示す。特に大規模モデルや長いシーケンスにおいて顕著である。

ABSTRACT

Energy-based models (EBMs), a.k.a. un-normalized models, have had recent successes in continuous spaces. However, they have not been successfully applied to model text sequences. While decreasing the energy at training samples is straightforward, mining (negative) samples where the energy should be increased is difficult. In part, this is because standard gradient-based methods are not readily applicable when the input is high-dimensional and discrete. Here, we side-step this issue by generating negatives using pre-trained auto-regressive language models. The EBM then works in the residual of the language model; and is trained to discriminate real text from text generated by the auto-regressive models. We investigate the generalization ability of residual EBMs, a pre-requisite for using them in other applications. We extensively analyze generalization for the task of classifying whether an input is machine or human generated, a natural task given the training loss and how we mine negatives. Overall, we observe that EBMs can generalize remarkably well to changes in the architecture of the generators producing negatives. However, EBMs exhibit more sensitivity to the training set used by such generators.

研究の動機と目的

エネルギーに基づくモデル（EBM）が、人間が生成した本文と機械生成本文を区別するように訓練された場合、どの程度一般化性能を発揮するかを調査すること。
勾配上昇によるネガティブサンプル抽出が不可能な離散的・高次元のテキストシーケンスにおいて、EBMをどのように訓練できるかという課題に取り組むこと。
異なるアーキテクチャ（例：GPT-2 と BiLSTM）や異なるコーパスで学習されたモデルから生成されたネガティブ例に対して、EBMのロバストネスを評価すること。
EBMを単なる尤度スコアリングを超えて、汎用的なテキストモデリングフレームワークとしての可能性を検討すること。

提案手法

事前学習済みの自己回帰的言語モデルが生成した本文（ネガティブ例）と、人間が生成した本文（ポジティブ例）を用いて、エネルギーに基づくモデル（EBM）を訓練し、本物の本文に対して低いエネルギーを割り当てるようにする。
離散的シーケンスにおける勾配上昇によるネガティブサンプル抽出を回避するため、事前学習済み言語モデルを用いてネガティブサンプルを生成する。
バイナリクロスエントロピー損失またはランク損失を用いてEBMを訓練し、本物の本文と生成された本文の区別を最適化する。
異なるアーキテクチャ（例：GPT-2 と BiLSTM）や異なるコーパスで学習された生成器から得られるネガティブサンプルを用いて、EBMの一般化性能を評価する。
入力の摂動（例：語の交換、エンティティの置換）に対する感受性を分析し、ロバストネスおよび分布内・分布外の挙動を評価する。
実際の本文と生成器の出力との乖離をモデル化するために、残差エネルギー関数を用い、言語モデルを事前分布として扱う。

実験結果

リサーチクエスチョン

RQ1本物の本文と生成されたネガティブ例を用いて訓練されたエネルギーに基づくモデル（EBM）は、未学習の生成アーキテクチャからのテキストを検出できるか？
RQ2訓練時の生成器とは異なるコーパスで学習されたテスト時の生成器を使用する場合、EBMの一般化性能はどのように変化するか？
RQ3エネルギー関数は、生成テキストと本物の本文のパターンをどの程度学習しているのか？また、これは分布シフトに対するロバストネスにどのように影響するか？
RQ4モデルスケール（アーキテクチャのサイズ）と生成長さは、EBMの識別精度にどのように影響するか？
RQ5エネルギー関数は、本物の本文における構造的摂動に対してどの程度感受性を示すか？これにより、そのインダクティブバイアスはどのような特徴を示すか？

主な発見

EBMは、3つの生成ネガティブ例のうち最も悪いものを使っても、最高で84.6％の高い識別精度を達成しており、本物／偽のテキスト検出タスクにおいて優れた性能を示している。
EBMは、GPT-2 や BiLSTM といった異なる生成アーキテクチャに対しても顕著な一般化性能を示しており、アーキテクチャの変更に対してもロバストであることが示された。
訓練時の生成器とは異なるコーパスで学習されたテスト時の生成器を使用すると、性能が著しく低下することが判明し、データ分布への感受性が顕著に現れた。
エネルギー関数は、シーケンスの先頭および末尾で摂動に対してより感受性を示しており、ここが生成器の出力と本物の本文との差が最も大きい領域であることが示唆された。
EBMは、ランダムまたはドメイン外のテキストに対しても低いエネルギーを割り当てることがあるが、これは非生成パターンを検出できるように学習していることを示している。ただし、この挙動は常に信頼できるわけではない。
エネルギー関数はモデルスケールや生成長さに対してよりロバストである。大規模モデルや長いシーケンスでは、識別性能が向上する傾向がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。