[论文解读] PEER: A Collaborative Language Model
PEER 训练一个协作式语言模型,能够规划、编辑、解释,并重复,以模拟人类写作,利用维基百科编辑历史和合成填充来推广到新的领域。
Textual content is often the output of a collaborative writing process: We start with an initial draft, ask for suggestions, and repeatedly make changes. Agnostic of this process, today's language models are trained to generate only the final result. As a consequence, they lack several abilities crucial for collaborative writing: They are unable to update existing texts, difficult to control and incapable of verbally planning or explaining their actions. To address these shortcomings, we introduce PEER, a collaborative language model that is trained to imitate the entire writing process itself: PEER can write drafts, add suggestions, propose edits and provide explanations for its actions. Crucially, we train multiple instances of PEER able to infill various parts of the writing process, enabling the use of self-training techniques for increasing the quality, amount and diversity of training data. This unlocks PEER's full potential by making it applicable in domains for which no edit histories are available and improving its ability to follow instructions, to write useful comments, and to explain its actions. We show that PEER achieves strong performance across various domains and editing tasks.
研究动机与目标
- 激发对超越一次性生成的协作写作能力的需求。
- 提出一个框架(计划、编辑、解释、重复)来建模迭代文本编辑。
- 利用维基百科编辑历史和合成填充来训练 PEER 以实现领域通用编辑。
- 通过填充编辑过程中的缺失组件来实现自训练,以提升数据多样性和质量。
- 发布模型、数据和代码,以支持对协作式语言模型的研究。
提出的方法
- 将 PEER 建模为一个迭代过程,在计划编辑、应用编辑和解释改变之间交替。
- 用检索到的背景文献来增强输入,使编辑有据可依。
- 训练多种 PEER 变体以推断编辑过程的缺失部分(PEER-Edit、PEER-Undo、PEER-Explain、PEER-Document)。
- 使用合成数据生成(填充)通过 PEER-Undo 等相关变体将训练数据扩展到维基百科编辑之外。
- 在训练和推理阶段应用控制标记来引导输出(计划、解释长度、终止行为、文档包含)。
- 对维基百科编辑历史进行预处理,构建从 x_t 到 x_{t+1} 的元组,包含计划 p_t、编辑、解释 e_t 以及相关文档 D_t。
实验结果
研究问题
- RQ1PEER 是否能够遵循计划,在没有编辑历史的领域中执行编辑,辅以通过 PEER-Undo 的自我训练来帮助?
- RQ2遵循基于维基百科的计划是否会迁移到人类撰写的指令上?来自 PEER-Explain 的合成计划是否能进一步提高这一点?
- RQ3PEER 是否能够有效地使用引用和引文来证明编辑的合理性,PEER-Document 是否有帮助?
- RQ4在自主和计划引导的使用场景中,迭代的 PEER 编辑与单次生成相比有何差异?
- RQ5领域自适应和合成数据对 PEER 在各任务上的表现有何影响?
主要发现
- PEER 在维基百科及非维基百科领域的自然编辑任务上优于基线。
- 使用合成编辑(PEER-Undo)进行域自适应的变体提升跨域性能,在 Gardening、Politics 和 Movies 子集上有显著收益。
- 计划和文档提供互补信息;同时移除两者会显著降低性能。
- 遵循人类撰写的计划可迁移到下游编辑任务,来自 PEER-Explain 的合成计划进一步提升结果。
- 使用引用和生成文档的 PEER 变体显示出强大的解释能力和改进的更新质量。
- 迭代式 PEER 编辑相对于单次生成也能获得竞争性结果,特别是在计划引导下。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。