Skip to main content
QUICK REVIEW

[論文レビュー] Learning to Represent Edits

Pengcheng Yin, Graham Neubig|arXiv (Cornell University)|Oct 31, 2018
Topic Modeling参考文献 24被引用数 48
ひとこと要約

論文は edit encoder fΔ と neural editor α を用いた autoencoder風フレームワークを提案し、編集の分散表現を学習させ、新しい入力へ編集を適用できるようにする。自然言語およびソースコードの実験で、表現が意味的および構造的な編集パターンを捉えることを示す。

ABSTRACT

We introduce the problem of learning distributed representations of edits. By combining a "neural editor" with an "edit encoder", our models learn to represent the salient information of an edit and can be used to apply edits to new inputs. We experiment on natural language and source code edit data. Our evaluation yields promising results that suggest that our neural network models learn to capture the structure and semantics of edits. We hope that this interesting task and data source will inspire other researchers to work further on this problem.

研究の動機と目的

  • 実データからの編集の分散表現を学ぶ問題を動機づける。
  • 編集をエンコードし編集済み入力を再構成する autoencoder風フレームワークを開発する。
  • テキストとコードの構造を活用して編集を表現し適用するアーキテクチャを探索する。
  • 学習された編集表現が意味的に類似した編集をクラスタリングし、別の文脈への編集転送が可能かを評価する。

提案手法

  • 編集 x− → x+ を実数ベクトル R^n に写像し、意味情報を促進するボトルネックを持つ edit 表現関数 fΔ を導入する。
  • fΔ(x−, x+) と新しい入力 x−′ を用いて x+′ を生成するニューラルエディタ α を訓練し、異なる文脈での編集を実質的に適用する。
  • Pα を、テキストの場合はトークンレベルのコピーを用いるシーケンス対シーケンス・エディタとして、コードの場合はグラフニューラルエンコーダ(GGNN)とサブツリーのコピーを含むツリー型デコーダを備えたグラフ対ツリー・エディタとしてモデル化する。
  • 二つのエンコードによって編集表現を構築する:シーケンスベースの diff 増補エンコードと、x− と x+ を単一の編集グラフに統合するグラフベースのエンコード。
  • fΔ の次元を制限してボトルネックを課すことで、表現が本質的な編集情報のみを捉えるよう強制する。
  • ゴールド標準の編集表現を用いたエンドツーエンドの性能と、多様なデータセットを用いた転送シナリオで評価する。

実験結果

リサーチクエスチョン

  • RQ1学習された編集表現を用いて、意味的に同値の編集をグルーピングできるか。
  • RQ2ある文脈で学習した編集を、別の文脈で同じ編集を適用するよう転送できるか。
  • RQ3編集表現は自然言語編集とコード編集の両方において有意義な構造を捉えているか。
  • RQ4どのアーキテクチャ選択(シーケンス vs グラフベース)が編集の意味を最もよく捉え、転送を可能にするか。
  • RQ5学習された表現は編集のクラスタリングと最近傍検索をどれくらい支援するか。

主な発見

  • モデルは意味的なクラスタを形成し、編集の意味を反映する密な編集表現を学習する。定性的なビジュアライゼーションと定量的指標で確認。
  • グラフベースの編集エンコードは高レベルの構造的編集パターンを捉え、特定の転送シナリオを改善する一方、金標準の編集が提供された場合にはシーケンスベースのエンコーダがエンドツーエンド予測でより良い結果を示すことがある。
  • ニューラルエディタは edit 表現を用いることで、bag-of-edits ベースラインより高い精度と低いパープレキシティを、GitHubEdits と WikiAtomicEdits のデータセット全体で達成する。
  • エンドツーエンドの転送実験では、一つの例から得た edit 表現を同じ修正者カテゴリ内の他の例の編集を予測する際に有効であることを示し、最良の結果は Graph2Tree エディタと逐次的な編集エンコードを組み合わせた場合で得られる。
  • このアプローチは、学習された編集表現が編集の意味をコード化し、未知の文脈へ一般化し得るという有望な証拠を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。