QUICK REVIEW

[論文レビュー] A Syntactic Neural Model for General-Purpose Code Generation

Pengcheng Yin, Graham Neubig|arXiv (Cornell University)|Apr 6, 2017

Natural Language Processing Techniques参考文献 44被引用数 114

ひとこと要約

この論文は、ASTを生成して整形式なコードを生み出す grammar-informed neural model を提示し、自然言語説明から一般目的の Python コードの最先端結果を達成します。

ABSTRACT

We consider the problem of parsing natural language descriptions into source code written in a general-purpose programming language like Python. Existing data-driven methods treat this problem as a language generation task without considering the underlying syntax of the target programming language. Informed by previous work in semantic parsing, in this paper we propose a novel neural architecture powered by a grammar model to explicitly capture the target syntax as prior knowledge. Experiments find this an effective way to scale up to generation of complex programs from natural language descriptions, achieving state-of-the-art results that well outperform previous code generation and semantic parsing approaches.

研究の動機と目的

自然言語の説明を一般目的のコードへと解析する動機づけを行い、無構造なテキスト系列ではなくコードを生成する。
対象言語の構文を活用するため、確率文法で AST 派生をモデリングする。
構造情報と親/兄弟コンテキストをニューラルデコードに組み込むことで、コード生成品質を向上させる。

提案手法

p(y|x) を、固定された Python 文法の下で NL 入力 x から AST y を生成する確率として定義する。
ApplyRule（生成規則の適用）と GenToken（終端トークンの出現）アクションを交互に用いる文法モデルを用い、AST を深さ優先・左から右へ構築する。
デコーダを構造的ニューラル結合（親フィーディングとフロンティアノード埋め込み）で拡張し、AST のトポロジを反映する。
(i) NL 入力の双方向 LSTM エンコーダ、(ii) 文法 informed 状態を用いた LSTM ベースのデコーダ、(iii) 入力から取り出した終端トークンを指示網（ポインタネットワーク）でコピーする機構を用いてアクション確率を計算する。
AST から解析されたコードのオラクルアクション列の尤度を最大化することで訓練し、推論はアクション列に対するビーム探索を用いて最良の AST を得る。

実験結果

リサーチクエスチョン

RQ1明示的な文法ルールを持つ AST によって生成を制約し、整形式なプログラムを生み出すことができるか？
RQ2親/兄弟情報を含む AST 構造の導入が、NL 説明からの一般目的コード生成の精度と頑健性を向上させるか？
RQ3Grammar ベースのアプローチは、実データの Python コード生成ベンチマークで従来の Seq2Tree および LPN 手法と比較してどうか？
RQ4コード生成における変数名やリテラルの取り扱いにおいて、入力からのコピーが必須か？

主な発見

データセット	正解率 (acc)	BLEU-4 (bleu)
HearthStone (HS)	16.2	75.8
Django	71.6	84.5

提案された構文駆動モデルは、HS と Django のデータセットで Latent Predictor Network ベースラインに対して、それぞれ 11.7% and 9.3% の絶対精度向上を達成する。
文法と AST 構造をモデリングすることにより、Seq2Tree ベースラインと比較して文法的に正しい出力を得られ、無効な AST を減少させる。
HS では、モデルは例ごとに約 170 アクションを生成し（Seq2Tree の 300+ と比較）、完全な文法ルール適用による効率化を示す。
Parent feeding は HS の性能を大幅に向上させ、より大きな AST が階層的情報フローの恩恵を受けることを示す。
入力から終端をコピーする（ポインタネットワーク）ことは、変数名やリテラルの扱いにおいて重要であり、削除すると精度が notable に低下する。
IFTTT（ドメイン特化言語）では、ニュートラルなベースラインと競合し、完全な木構造の精度では古典的な手法に近づくなど、より広い適用性を示す。
アブレーションにより、フロンティア埋め込みは小さな文法では寄与が少ないが、大きな文法では有用であること、単一ノード結合はアクション数を減らす可能性があり、データセットの特性次第で有益になり得ることが示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。