QUICK REVIEW

[논문 리뷰] Program Synthesis and Semantic Parsing with Learned Code Idioms

Richard Shin, Miltiadis Allamanis|arXiv (Cornell University)|2019. 06. 26.

Software Engineering Research참고 문헌 41인용 수 44

한 줄 요약

Patois는 코퍼스에서 일반적인 AST 조각을 채굴하고 트리 기반 신경 합성기를 훈련시켜 코드 생성 중 아이디엄을 출력하게 하여 고수준 코드 관용구를 저수준 토큰과 교차시키고, Hearthstone 및 Spider 데이터셋에서 의미 파싱 정확도를 향상시킨다.

ABSTRACT

Program synthesis of general-purpose source code from natural language specifications is challenging due to the need to reason about high-level patterns in the target program and low-level implementation details at the same time. In this work, we present PATOIS, a system that allows a neural program synthesizer to explicitly interleave high-level and low-level reasoning at every generation step. It accomplishes this by automatically mining common code idioms from a given corpus, incorporating them into the underlying language for neural synthesis, and training a tree-based neural synthesizer to use these idioms during code generation. We evaluate PATOIS on two complex semantic parsing datasets and show that using learned code idioms improves the synthesizer's accuracy.

연구 동기 및 목표

일반 목적 언어에서 실제 세계의 프로그램을 합성하는 도전 과제를 고수준 추론과 저수준 구현 세부 정보를 연결함으로써 제시한다.
일반 코퍼스에서 일반적으로 사용되는 코드 아이디엄을 자동으로 채굴하여 아이디엄을 일급 연산자로 확장하기 위해 문법을 확장한다.
생성 중 추론 수준을 교차시키기 위해 아이디엄이나 그 본문을 방출할 수 있는 트리 기반 신경 합성기를 학습시킨다.
아이디엄 인지 학습이 의미 파싱 벤치마크에서 합성 정확도를 향상시킨다는 것을 입증한다.
다양한 데이터셋 간에 일반화되도록 아이디엄이 프로그램 조각을 압축하고 구조화하는 방식을 시연한다.

제안 방법

코퍼스로부터 자주 등장하는 코드 아이디엄을 비모수 베이지안 접근법(Pitman-Yor 프로세스)을 사용해 채굴하고 아이디엄의 사후 분포 pTSG를 구축한다.
기저 문법에 아이디엄 조각을 확장하고 비단말 잎에 이름 있는 인수로 작동하도록 레이블을 지정한다.
프로그램 구성 도중 아이디엄이나 원래의 AST 조각을 출력하도록 트리 기반 또는 그래프 기반 신경 생성기를 학습시킨다.
유리할 때 아이디엄을 출력하도록 돕는 특수한 학습 목표를 사용하되 원래의 생성 추적을 보존한다.
추론 시 아이디엄 출력을 본문으로 대체하여 IDE를 단계별 확장된 것처럼 펼친다.
BLEU 지표와 정확일치(exact-match)를 포함한 지표를 사용하여 Hearthstone(Python 프로그램) 및 Spider(SQL) 의미 파싱 작업을 평가한다.

실험 결과

연구 질문

RQ1일반 목적 언어에서 자연어 설명으로부터 생성할 때 자동으로 채굴된 코드 아이디엄이 신경 프로그램 합성을 향상시킬 수 있는가?
RQ2모든 생성 단계에서 고수준 아이디엄을 저수준 토큰과 교차시키는 방식이 엔드투엔드 토큰 수준 생성보다 의미 파싱 정확도를 더 높이는가?
RQ3아이디엄 집합의 크기와 품질(K)이 서로 다른 도메인에서 합성 성능에 어떤 영향을 미치는가?
RQ4트리 기반 디코더가 추론 시 전체 아이디엄 본문을 보존하는 학습 목표를 통해 아이디엄을 효과적으로 활용할 수 있는가?
RQ5다양한 스키마와 프로그래밍 작업(Python vs SQL)이 있는 데이터셋 간에 아이디엄이 일반화되는가?

주요 결과

훈련 데이터에서 아이디엄을 채굴하면 BLEU 점수가 향상되고 정확일치 정확도도 상승할 수 있으며, 특히 더 큰 아이디엄 세트(K=80)에서 Hearthstone 테스트 데이터에 큰 이점이 나타난다.
Hearthstone에서 최적의 아이디엄 구성은 정확일치에서 상당한 이득(예: 최대 4.5% 향상)과 BLEU 점수의 향상을 가져온다.
Spider에서 아이디엄 활용 모델은 여러 K 값에서 기준선 정확일치 성능에 도달하거나 이를 상회한다.
본 접근은 학습된 아이디엄이 공통 구문 구조 및 도메인 API와 같은 자주 나타나고 의미적으로 의미 있는 패턴을 포착한다는 것을 보여준다.
아이디엄은 큰 조각으로 구성될 수 있어, 단일 단계의 아이디엄 출력으로 상당한 코드 블록을 내보내고 디코더의 작업을 용이하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.