Skip to main content
QUICK REVIEW

[論文レビュー] BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model

Alex Wang, Kyunghyun Cho|arXiv (Cornell University)|Feb 11, 2019
Topic Modeling参考文献 23被引用数 141
ひとこと要約

要約: この論文は BERT をマルコフ乱択場(MRF)言語モデルとして再定式化し、文を生成するための Gibbs 採択法を導出して、BERT が左から右へ順にモデル化したモデルよりも流暢で多様性が高いが、品質にはいくつかのトレードオフがあることを示す。

ABSTRACT

We show that BERT (Devlin et al., 2018) is a Markov random field language model. This formulation gives way to a natural procedure to sample sentences from BERT. We generate from BERT and find that it can produce high-quality, fluent generations. Compared to the generations of a traditional left-to-right language model, BERT generates sentences that are more diverse but of slightly worse quality.

研究の動機と目的

  • BERT の標準的な双方向事前学習を超えたサンプリングと生成を動機づける。
  • 疑似対数尤度訓練を用いて BERT を MRF-LM と正式に定式化する。
  • BERT から文を生成するための Gibbs 採択法および他の MCMC 技術を提案する。
  • BERT ベースの生成における多様性と品質のトレードオフを評価する。
  • BERT ベースの生成実験を可能にする実用的な指針とコードを提供する。

提案手法

  • 完全連結グラフのトークン変数 X を定義し、完全グラフクリク潜在が各トークンの対数ポテンシャルの積に分解される。
  • マスクされたトークンがあるとき、他のすべてのトークンに依存する対数ポテンシャルを用い、softmax 正規化を伴う条件付き p(x_t|X_{\backslash t}) を可能にする。
  • 結合正規化が困難なため疑似対数尤度 (PLL) 学習を採用し、残りの部分を与えた各トークンの対数尤度の期待値を最大化する。
  • 破損除去オートエンコーダーに関連する、マスク位置をサンプリングして予測することで stochastic PLL 推定を実装する。
  • Gibbs 採択ベースの生成を開発: ランダムな位置を繰り返しマスクし、p(x_t|X_{\backslash t}) からトークンをサンプルし、シーケンスを更新する。
  • 逐次的および非逐次的(左から右)採択スキームと実用的な選択肢(例: top-k=100 の提案)を説明する。
  • 自動指標(例: コーパス BLEU、困惑度)と人間の流暢さ判断を用いて、BERT ベースの生成と GPT を比較する。

実験結果

リサーチクエスチョン

  • RQ1BERT を tractable なサンプリング手順を持つ MRF-LM として解釈できるか。
  • RQ2BERT ベースの生成は品質と多様性の点で左-to-right モデルとどのように比較されるか。
  • RQ3BERT のような双方向モデルからテキストを生成する際、どのようなサンプリング戦略(Gibbs、逐次)が効果的か。
  • RQ4PLL ベースの訓練は、BERT を MRF-LM として学習・サンプリングすることをどのように可能化、または制約するか。

主な発見

  • BERT は MRF-LM として扱うことができ、追加の訓練なしに Gibbs 採択生成手順を可能にする。
  • BERT 由来のサンプリングは流暢な文を生み出し、一般的に GPT ベースの生成よりも多様性が高い。
  • GPT と比べて、BERT の生成は多様である一方、自動指標と人間の流暢さ判断によれば品質はやや低い場合がある。
  • 著者は困惑度と n-gram の多様性に域内差があることを観察しており、ドメインシフトが外部言語モデル評価に影響を与える可能性を示唆している。
  • BERT ベースの生成は参照コーパスとの n-gram 重複が低く、GPT やデータ分布に対して高い多様性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。