[論文レビュー] PEER: A Collaborative Language Model
PEER は Wikipedia 編集履歴と合成インフィリングを用いて、新しい領域へ generalize するために、計画・編集・説明・反復を行い、人間の執筆を模倣する協調的な言語モデルを訓練します。
Textual content is often the output of a collaborative writing process: We start with an initial draft, ask for suggestions, and repeatedly make changes. Agnostic of this process, today's language models are trained to generate only the final result. As a consequence, they lack several abilities crucial for collaborative writing: They are unable to update existing texts, difficult to control and incapable of verbally planning or explaining their actions. To address these shortcomings, we introduce PEER, a collaborative language model that is trained to imitate the entire writing process itself: PEER can write drafts, add suggestions, propose edits and provide explanations for its actions. Crucially, we train multiple instances of PEER able to infill various parts of the writing process, enabling the use of self-training techniques for increasing the quality, amount and diversity of training data. This unlocks PEER's full potential by making it applicable in domains for which no edit histories are available and improving its ability to follow instructions, to write useful comments, and to explain its actions. We show that PEER achieves strong performance across various domains and editing tasks.
研究の動機と目的
- 単一パス生成を超えた協調的な執筆能力の必要性を動機づける。
- 反復的なテキスト編集をモデル化するためのフレームワーク(Plan, Edit, Explain, Repeat)を提案する。
- PEER をドメイン汎一般 editing のために、Wikipedia 編集履歴と合成インフィリングを活用して訓練する。
- 編集プロセスの欠落した要素をインフィルすることによる自己訓練を可能にし、データの多様性と品質を向上させる。
- 協調型言語モデルに関する研究を支援するため、モデル・データ・コードを公開する。
提案手法
- PEER を、編集を計画することと、編集を適用すること、そして変更を説明することを交互に行う反復プロセスとしてモデル化する。
- 根拠となる背景文書を取得して入力を補強し、編集を根拠づける。
- 編集プロセスの欠落部分を推定するために、複数の PEER バリアントを訓練する(PEER-Edit, PEER-Undo, PEER-Explain, PEER-Document)。
- 合成データ生成(インフィル)を用いて、PEER-Undo および関連バリアントを介して、Wikipedia 編集以外のトレーニングデータを拡張する。
- トレーニングおよび推論時に、出力を誘導するためのコントロールトークンを適用する(plan、explanation length、termination behavior、document inclusion)。
- Wikipedia 編集履歴を前処理して、計画 p_t、編集、説明 e_t および関連文書 D_t を含む x_t から x_{t+1} のタプルを構築する。
実験結果
リサーチクエスチョン
- RQ1PEER は編集履歴のないドメインで、PEER-Undo を用いた自己訓練の支援を得て、計画に従い編集を実行できるか。
- RQ2Wikipedia に基づく計画の実行が、人間が書いた指示へ転移するか、また PEER-Explain 由来の合成計画がこれを改善できるか。
- RQ3PEER は引用や引用文を効果的に用いて編集を正当化できるか、PEER-Document は役立つか。
- RQ4自律的および計画主導の使用において、反復的なPEER 編集は単一パス生成とどのように比較されるか。
- RQ5ドメイン適応と合成データが、タスク全体での PEER の性能に与える影響は何か。
主な発見
- PEER は Wikipedia および非 Wikipedia ドメインの自然な編集でベースラインを上回る。
- 合成編集を用いたドメイン適応 variante (PEER-Undo)は、クロスドメイン性能を向上させ、Gardening、Politics、Movies のサブセットで顕著な向上が見られる。
- 計画と文書は補完的な情報を提供する。両方を削除すると性能が大幅に低下する。
- 人間が書いた計画に従うことは下流の編集タスクへ転送され、PEER-Explain 由来の合成計画がさらに結果を高める。
- 引用と生成文書を活用する PEER バリアントは、説明能力が高く、更新品質の改善を示す。
- 反復的なPEER 編集は、特に plans によって導かれる場合、単一パス生成と対等な競争力のある結果を生む。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。