Skip to main content
QUICK REVIEW

[논문 리뷰] Learning to Represent Edits

Pengcheng Yin, Graham Neubig|arXiv (Cornell University)|2018. 10. 31.
Topic Modeling참고 문헌 24인용 수 48
한 줄 요약

이 논문은 edit encoder fΔ와 neural editor α를 갖춘 autoencoder 스타일의 프레임워크를 제안하여 편집의 분산 표현을 학습하고, 새로운 입력에 편집을 적용할 수 있도록 한다; 자연어와 소스 코드에 대한 실험은 표현이 의미적 및 구조적 편집 패턴을 포착함을 보여준다.

ABSTRACT

We introduce the problem of learning distributed representations of edits. By combining a "neural editor" with an "edit encoder", our models learn to represent the salient information of an edit and can be used to apply edits to new inputs. We experiment on natural language and source code edit data. Our evaluation yields promising results that suggest that our neural network models learn to capture the structure and semantics of edits. We hope that this interesting task and data source will inspire other researchers to work further on this problem.

연구 동기 및 목표

  • 실제 편집 데이터로부터 편집의 분산 표현을 학습하는 문제의 동기를 부여한다.
  • 편집을 인코딩하고 편집된 입력을 재구성하는 autoencoder 스타일 프레임워크를 개발한다.
  • 텍스트 및 코드 구조를 활용해 편집을 표현하고 적용하는 아키텍처를 탐색한다.
  • 학습된 편집 표현이 의미적으로 유사한 편집을 클러스터링하고 새로운 맥락에 편집을 이전할 수 있는지 평가한다.

제안 방법

  • 편집 x− → x+를 실수 벡터 R^n으로 매핑하는 편집 표현 함수 fΔ를 도입하고, 의미 콘텐츠를 촉진하기 위한 병목을 부여한다.
  • 새로운 입력 x−′로 편집을 효과적으로 적용하여 x+′를 생성하기 위해 fΔ(x−, x+)와 새로운 입력을 활용하는 신경 편집기 α를 학습한다.
  • Pα를 텍스트의 토큰 수준 복사를 갖는 시퀀스-투-시퀀스 편집기로 모델링하거나, 그래프 신경망 인코더(GGNN)와 자식 트리 복사를 이용한 트리 기반 디코더를 갖는 코드의 그래프-투-트리 편집기로 모델링한다.
  • 두 가지 인코딩을 통해 편집 표현을 구성한다: 시퀀스 기반 diff-augmented 인코딩과 x−와 x+를 하나의 편집 그래프로 결합하는 그래프 기반 인코딩.
  • 추천된 표현이 필수 편집 정보만 캡처하도록 fΔ의 차원을 제한하는 병목을 부여한다.
  • 골드 표준 편집 표현으로 엔드-투-엔드 성능과 다양한 데이터셋을 사용한 전달 시나리오에서 평가한다.

실험 결과

연구 질문

  • RQ1의미적으로 동등한 편집이 학습된 편집 표현을 통해 함께 그룹화될 수 있는가?
  • RQ2한 맥락에서 학습된 편집을 다른 맥락에서 같은 편집을 적용하는 데 전달할 수 있는가?
  • RQ3편집 표현이 자연어 편집과 코드 편집 모두에서 의미 있는 구조를 포착하는가?
  • RQ4어떤 아키텍처 선택(시퀀스 기반 vs 그래프 기반)이 편집 의미를 더 잘 캡처하고 전달 가능하게 하는가?
  • RQ5학습된 표현이 편집의 클러스터링 및 최근접 이웃 검색을 얼마나 잘 지원하는가?

주요 결과

  • 모델은 의미 있는 클러스터를 형성하고 편집 의미를 반영하는 밀도 높은 편집 표현을 학습한다는 정성적 시각화 및 정량적 지표에서 나타난다.
  • 그래프 기반 편집 인코딩은 고차원적 구조 편집 패턴을 포착하고 특정 전달 시나리오를 개선할 수 있으며, 골드 편집이 제공될 때는 시퀀스 기반 인코더가 엔드-투-엔드 예측에서 더 잘 수행하는 경우가 있다.
  • 편집 표현을 사용하는 신경 편집기는 GitHubEdits 및 WikiAtomicEdits 데이터세트 전반에서 백(BoE) 편집 기법 대비 더 높은 정확도와 더 낮은 perplexity를 달성한다.
  • 엔드-투-엔드 전달 실험은 한 예의 편집 표현을 사용해 같은 수정기(fixer) 범주 내의 다른 예에서 편집을 예측할 수 있으며, 최상의 결과는 Graph2Tree 편집기와 순차적 편집 인코딩을 함께 사용할 때 나타난다.
  • 이 접근법은 학습된 편집 표현이 편집의 의미를 인코딩하고 보지 못한 맥락으로 일반화할 수 있다는 유망한 증거를 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.