QUICK REVIEW

[论文解读] Learning to Represent Edits

Pengcheng Yin, Graham Neubig|arXiv (Cornell University)|Oct 31, 2018

Topic Modeling参考文献 24被引用 48

一句话总结

本文提出一种类似自编码器的框架，包含一个 edit encoder fΔ 和一个神经编辑器 α，用于学习编辑的分布式表示，从而将编辑应用于新输入；在自然语言和源代码上的实验表明，这些表示能够捕捉编辑的语义和结构模式。

ABSTRACT

We introduce the problem of learning distributed representations of edits. By combining a "neural editor" with an "edit encoder", our models learn to represent the salient information of an edit and can be used to apply edits to new inputs. We experiment on natural language and source code edit data. Our evaluation yields promising results that suggest that our neural network models learn to capture the structure and semantics of edits. We hope that this interesting task and data source will inspire other researchers to work further on this problem.

研究动机与目标

从真实编辑数据中提出学习编辑的分布式表示问题。
Develop an autoencoder-style framework that encodes edits and reconstructs edited inputs.
Explore architectures that leverage textual and code structure to represent and apply edits.
Evaluate whether learned edit representations cluster semantically similar edits and transfer edits to new contexts.

提出的方法

引入一个编辑表示函数 fΔ，将编辑 x− → x+ 映射到实数向量 R^n，并设定瓶颈以鼓励语义内容。
训练一个神经编辑器 α，利用 fΔ(x−, x+) 和新的输入 x−′ 生成 x+′，实质上是在新上下文中应用该编辑。
将 Pα 模型化为文本的序列到序列编辑器（带有分词级复制），或代码的图到树编辑器（带有图神经编码器 GGNN 和基于树的解码器，带子树复制）。
通过两种编码构建编辑表示：基于序列的差异增强编码和将 x− 与 x+ 合并成单一编辑图的基于图的编码。
通过限制 fΔ 的维度来强加瓶颈，迫使表示仅捕捉到关键的编辑信息。
在多样化数据集上评估端到端性能，使用金标准编辑表示以及迁移场景。

实验结果

研究问题

RQ1通过学习的编辑表示，语义等价的编辑是否能够被分组在一起？
RQ2在一个上下文中学习的编辑能否迁移到不同上下文中应用相同的编辑？
RQ3编辑表示是否在自然语言编辑和代码编辑中捕捉到有意义的结构？
RQ4哪些架构选择（基于序列还是基于图）能最好地捕捉编辑语义并实现迁移？
RQ5学习得到的表示在编辑的聚类与最近邻检索方面的支持程度如何？

主要发现

该模型学习到密集的编辑表示，形成有意义的聚类，并在定性可视化和定量指标中反映编辑语义。
基于图的编辑编码可以捕捉更高层次的结构编辑模式，并在某些迁移场景中提高表现，尽管当提供金标准编辑时，基于序列的编码器在端到端预测上有时表现更好。
在 GitHubEdits 与 WikiAtomicEdits 数据集上，使用编辑表示的神经编辑器在准确率和困惑度方面均优于基于编辑袋的基线。
端到端迁移实验表明，使用一个示例的编辑表示可以预测同一修复者类别中其他示例的编辑，最好在使用 Graph2Tree 编辑器并采用顺序编辑编码时取得结果。
该方法提供了有希望的证据，表明学习得到的编辑表示编码了编辑的语义，并且可以推广到未见的上下文。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。