Skip to main content
QUICK REVIEW

[論文レビュー] Tailor: A Prompt-Based Approach to Attribute-Based Controlled Text Generation

Kexin Yang, Dayiheng Liu|arXiv (Cornell University)|Apr 28, 2022
Topic Modeling被引用数 20
ひとこと要約

Tailor は、連続的で事前学習済みの属性プロンプトを用いて固定された GPT-2 を単一属性 CTG に誘導し、プロンプトの連結、マスキング、再インデックス化された位置、学習可能な MAP コネクターを通じてマルチ属性生成を可能にし、フルモデルの微調整なしに流暢さと頑健性を向上させる。

ABSTRACT

Attribute-based Controlled Text Generation (CTG) refers to generating sentences that satisfy desirable attributes (e.g., emotions and topics). Existing works often utilize fine-tuning or resort to extra attribute classifiers, yet suffer from storage and inference time increases. To address these concerns, we explore attribute-based CTG in a prompt-based manner. In short, the proposed Tailor represents each attribute as a pre-trained continuous vector (i.e., single-attribute prompt) and guides the generation of a fixed PLM switch to a pre-specified attribute. We experimentally find that these prompts can be simply concatenated as a whole to multi-attribute CTG without any re-training, yet raises problems of fluency decrease and position sensitivity. To this end, Tailor provides a multi-attribute prompt mask and a re-indexing position-ids sequence to bridge the gap between the training (one prompt for each task) and testing stage (concatenating more than one prompt). To further enhance such single-attribute prompt combinations, Tailor also introduces a trainable prompt connector, which can be concatenated with any two single-attribute prompts to multi-attribute text generation. Experiments on 11 attribute-specific generation tasks demonstrate strong performances of Tailor on both single-attribute and multi-attribute CTG, with 0.08\% training parameters of a GPT-2.

研究の動機と目的

  • すべての属性の微調整済みモデルを保存せずに、効率的な属性ベースの制御付きテキスト生成を動機付ける。
  • 各属性が事前学習済みの連続プロンプトとなり、固定言語モデルを案内するプロンプトベースのフレームワークを提案する。
  • 単一属性プロンプトを連結し、訓練とテストのギャップに対処することで、堅牢なマルチ属性生成を実現する。
  • 流暢さと位置感度の問題を緩和するための学習を伴わない機構(MAP mask、RP sequence)を導入する。
  • 未知の属性組み合わせを含むマルチ属性の構成を強化・一般化する学習可能な MAP コネクターを提供する。

提案手法

  • 各属性を固定の事前学習済み連続プロンプト(単一属性プロンプト)として表現し、属性固有データのプロンプトのみを訓練する。
  • 単一属性プロンプトを入力プレフィックスと連結して固定の GPT-2 に投入し、属性制御テキストを生成する。
  • マルチ属性生成のために単一属性プロンプトを連結し、MAP mask と RP sequence で流暢さ/位置感度に対処する。
  • MAP コネクターを導入して、二つの単一属性プロンプトを疑似属性プロンプトと組み合わせる小さなモジュールを訓練し、マルチ属性生成を実現する。
  • 疑似プロンプト構築(argmax ベースまたは加重)を用いてマルチ属性プロンプトを模擬する。
  • YELP データセットに対して、単一属性およびマルチ属性 CTG タスクを GPT-2 ベースモデルで評価し、正確さ、文章品質、多様性の客観的指標を用いる。

実験結果

リサーチクエスチョン

  • RQ1属性固有のプロンプトは、モデルを微調整せずに、所望の単一属性を持つ文を生成するよう固定言語モデルを誘導できるか?
  • RQ2単一属性プロンプトは連結によってマルチ属性テキスト生成へとスケール可能か、そして流暢さをどのように維持できるか?
  • RQ3MAP mask、再インデックス化されたポジションID、および MAP コネクターのような機構は、未知の属性組み合わせを含むマルチ属性生成の品質と頑健性を改善するか?
  • RQ4マルチ属性 CTG におけるプロンプトの組み合わせにおける、学習を伴う方法と非学習方法の比較的利益は何か?

主な発見

  • 単一属性プロンプトは、最小限のパラメータ更新(Tailor-S の GPT-2 で 0.08% の訓練パラメータ)で属性を競争力ある制御を可能にする。
  • 単一属性プロンプトを連結することでマルチ属性生成を得られるが、流暢さが低下したり位置感度が導入される可能性がある。
  • MAP mask と RP sequence はクロスアテンションと位置感度を緩和し、再訓練せずにマルチ属性生成の安定性を向上させる。
  • 疑似プロンプトで訓練された MAP コネクターは、マルチ属性生成をさらに強化し、未知の属性組み合わせへ一般化する。
  • Tailor の派生は、微調整ベースラインと比較してはるかに少ない訓練パラメータで Yelp のマルチ属性 CTG において強い性能を達成する。
  • 少数ショット設定では、Tailor の派生がベースラインを上回り、追加の訓練パラメータはごくわずかで済む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。