QUICK REVIEW

[논문 리뷰] Neural Sketch Learning for Conditional Program Generation

Vijayaraghavan Murali, Letao Qi|arXiv (Cornell University)|2017. 03. 16.

Software Engineering Research인용 수 52

한 줄 요약

이 논문은 프로그램 스케치를 통해 조건부로 타입 안전한 Java 유사 코드를 생성하도록 학습하고, 스케치를 조합적 탐색으로 완전한 프로그램으로 구체화하는 신경-심볼릭 시스템 Bayou를 제시합니다. 한정된 레이블에서 API가 많은 메서드 본문을 예측하는 강한 능력을 보여줍니다.

ABSTRACT

We study the problem of generating source code in a strongly typed, Java-like programming language, given a label (for example a set of API calls or types) carrying a small amount of information about the code that is desired. The generated programs are expected to respect a "realistic" relationship between programs and labels, as exemplified by a corpus of labeled programs available during training. Two challenges in such conditional program generation are that the generated programs must satisfy a rich set of syntactic and semantic constraints, and that source code contains many low-level features that impede learning. We address these problems by training a neural generator not on code but on program sketches, or models of program syntax that abstract out names and operations that do not generalize across programs. During generation, we infer a posterior distribution over sketches, then concretize samples from this distribution into type-safe programs using combinatorial techniques. We implement our ideas in a system for generating API-heavy Java code, and show that it can often predict the entire body of a method given just a few API calls or data types that appear in the method.

연구 동기 및 목표

레이블이 대상 코드에 대한 정보를 제한적으로 드러내는 상황에서 조건부 프로그램 생성을 동기화합니다.
구문/의미 제약을 관리하기 위해 원시 코드가 아닌 프로그램 스케치를 대상으로 작동하는 학습 프레임워크를 개발한다.
스케치의 신경 인코딩을 타입 가이드된 조합적 구체화와 통합하여 컴파일 가능한 프로그램을 생성한다.
적은 수의 API 호출이나 타입에서 전체 메서드 본문을 생성하는 것을 보여주기 위해 API가 많은 Android/Java 코드에 대해 평가한다.

제안 방법

제어 흐름과 타입 정보를 보존하면서 저수준 이름을 추상화하는 스케치 문법을 정의한다.
레이턴트 Z를 통해 레이블 X를 스케치 Y에 연결하는 P(Y|X,θ)와 디코더 P(Y|Z,θ)를 갖는 Gaussian Encoder-Decoder (Ged)를 제안한다.
재매개화 트릭을 사용한 변분 하한을 통해 최대 조건부 우도를 이용해 학습한다.
두 단계 합성 사용: P(Y|X,θ)에서 스케치를 샘플링한 다음 부분적으로 구체화된 스케치(PCS)에 대해 타입 지향 확률적 탐색을 이용해 전체 프로그램으로 구체화한다.
스케치 문법과 휴리스틱 구체화 분포 P(Prog|Y)를 통해 구체화가 타입 안전성과 API 사용을 준수하도록 강제한다.
Bayou를 ~150k 개의 Android 메서드가 Aml(Java-like)로 변환된 말뭉치에서 평가하고 AST 기반 베이스라인 및 대안 모델과 비교한다.

실험 결과

연구 질문

RQ1자바-유사 언어에 대한 조건부 프로그램 생성을 전체 코드가 아닌 고수준 프로그램 스케치를 학습하여 효과적으로 수행할 수 있는가?
RQ2스케치 기반 학습과 조합적 구체화가 제한된 레이블 정보로도 대상 기능에 맞는 타입 안전하고 컴파일 가능한 프로그램을 만들어내는가?
RQ3Ged 모델이 부분 관찰성 하에서 정확도와 강건성 측면에서 기본 조건부 생성 모델 및 AST 기반 학습자와 어떻게 비교되는가?
RQ4스케치로부터 후보 프로그램을 생성하고 순위를 매기는 실용적 성능(소요 시간, 실행 가능성)은 어떠한가?
RQ5스케치 기반 학습이 보지 못한 데이터와 보지 못한 API 사용 패턴에 잘 일반화되는가?

주요 결과

Bayou는 훈련 중 보지 않은 작업을 구현하는 복잡한 메서드 본문을 종종 생성할 수 있으며, 이는 단지 몇 개의 API 호출이나 타입만으로도 가능하다.
Ged-Sk(스케치 기반) 모델은 AST 기반 및 전체-Aml 베이스라인을 능가하며, 부분 관찰성에서 현저한 이점을 보인다.
Ged-Sk는 여러 지표에서 전반적인 정확도가 가장 높고, 스케치를 구체화할 때도 일정하게 잘 형성된다.
10개의 후보 프로그램을 생성하고 순위를 매기는 데 평균 약 8초가 소요된다.
스케치 기반 학습은 직접적 AST/AML 기반 학습보다 보지 못한 데이터에 대해 더 좋은 일반화 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.