Skip to main content
QUICK REVIEW

[論文レビュー] A Distributional Approach to Controlled Text Generation

Muhammad Khalifa, Hady Elsahar|arXiv (Cornell University)|Dec 21, 2020
Topic Modeling参考文献 55被引用数 31
ひとこと要約

本論文は Distributional Control フレームワーク (GDC) を提案し、事前学習済み言語モデルに対して点制約と分布制約を統合する。元の LM から KL 発散を最小化する最適なエネルギー基盤モデルを導出し、その後 KL 適応型分布方策勾配による自己回帰型ポリシーを訓練する。

ABSTRACT

We propose a Distributional Approach for addressing Controlled Text Generation from pre-trained Language Models (LMs). This approach permits to specify, in a single formal framework, both "pointwise" and "distributional" constraints over the target LM -- to our knowledge, the first model with such generality -- while minimizing KL divergence from the initial LM distribution. The optimal target distribution is then uniquely determined as an explicit EBM (Energy-Based Model) representation. From that optimal representation we then train a target controlled Autoregressive LM through an adaptive distributional variant of Policy Gradient. We conduct a first set of experiments over pointwise constraints showing the advantages of our approach over a set of baselines, in terms of obtaining a controlled LM balancing constraint satisfaction with divergence from the initial LM. We then perform experiments over distributional constraints, a unique feature of our approach, demonstrating its potential as a remedy to the problem of Bias in Language Models. Through an ablation study, we show the effectiveness of our adaptive technique for obtaining faster convergence. (Code available at https://github.com/naver/gdc)

研究の動機と目的

  • Controlled text generation をターゲット分布上の制約充足問題として formalize する。点制約と分布制約の両方を満たす。
  • 事前学習済み LM からの KL 発散を最小化して言語品質を保持しつつ制約を課す。
  • EBM 形式の一意的な最適ターゲット分布を導出し、学習可能な自己回帰ポリシーを介して実用的なサンプリングを可能にする。
  • 適応的サンプリング手法を通じてバイアス緩和の可能性を示し、収束の速さを改善する。

提案手法

  • ターゲット分布 p における特徴関数の期待としてモーメント制約を定義する。
  • モーメント制約の下で D_KL(p||a) を最小化して一意の p を得る。これにより p(x) ∝ a(x) exp( sum_i λ_i φ_i(x) )、と導かれる。
  • Self-NN Importance Sampling を用いて EBM を近似し、モーメントを推定して λ を SGD(Algorithm 1)で解く。
  • KL-Adaptive Distributional Policy Gradient(Algorithm 2)を用いて p を近似する自己回帰ポリシー π_θ を訓練する。
  • EBM に基づくピボットと推論のための効率的サンプリングを分離し、D_KL(p||π_θ) および D_KL(π_θ||a) の監視を可能にする。
  • 単一のフレームワーク内で点-wise, 分布制約、ハイブリッド制約を扱う。

実験結果

リサーチクエスチョン

  • RQ1点wise 制約と分布制約を、元の LM に近接しながら KL 最小化フレームワーク内で満たすことは可能か。
  • RQ2最適ターゲット分布は制約を一意に満たす Energy-Based Model の形になるか。
  • RQ3KL-Adaptive DPG は自己回帰サンプリングの最適分布を効率的に近似できるか。
  • RQ4 Distributional Control は制約充足性、多様性、バイアス緩和の観点でベースラインと比較してどうか。

主な発見

  • GDC は制約充足性でベースラインを上回りつつ、事前学習済み GPT-2 からの発散を抑え、多様性を維持する。
  • 分布実験では、GDC が特定の人口統計やトピックの割合を増減させることでバイアスを緩和(例: 女性伝記の割合を 7.4% から 35.6% へ)。
  • profession/biography 実験では、GDC がターゲットの増減を達成(例: Science を 1.5% から 20.1%、Art を 11.4% から 88.6% へ in hybrid 設定; 表の値を参照)。
  • GDC はベースラインと比較して D_KL(p||π_θ) が低く、収束が安定し、多くの場合 Self-BLEU-5 が低く語彙が豊かになる。
  • このアプローチは、制約を課す一方で元の LM との近接性を保つことで、一部の RL ベースラインで見られた退化を回避する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。