Skip to main content
QUICK REVIEW

[論文レビュー] Syntax-Directed Variational Autoencoder for Structured Data

Hanjun Dai, Yingtao Tian|arXiv (Cornell University)|Feb 24, 2018
Topic Modeling参考文献 22被引用数 201
ひとこと要約

この論文はSD-VAEを導入し、構造化データ生成において統語的制約と意味的制約の両方を確率的 lazy 属性を用いて強制し、プログラムと分子の再構成、事前妥当性、最適化を改善する。

ABSTRACT

Deep generative models have been enjoying success in modeling continuous data. However it remains challenging to capture the representations for discrete structures with formal grammars and semantics, e.g., computer programs and molecular structures. How to generate both syntactically and semantically correct data still remains largely an open problem. Inspired by the theory of compiler where the syntax and semantics check is done via syntax-directed translation (SDT), we propose a novel syntax-directed variational autoencoder (SD-VAE) by introducing stochastic lazy attributes. This approach converts the offline SDT check into on-the-fly generated guidance for constraining the decoder. Comparing to the state-of-the-art methods, our approach enforces constraints on the output space so that the output will be not only syntactically valid, but also semantically reasonable. We evaluate the proposed model with applications in programming language and molecules, including reconstruction and program/molecule optimization. The results demonstrate the effectiveness in incorporating syntactic and semantic constraints in discrete generative models, which is significantly better than current state-of-the-art approaches.

研究の動機と目的

  • 構文的に有効で意味的に意味のある構造化データを生成するという課題を動機づけ、解決する。
  • 構文-directed(属性)文法を用いてデコーダに意味的制約を組み込む。
  • 生成中のオンラインガイダンスとしてオンライン性の遅延属性を用いることで、オフラインの意味チェックを生成時のガイダンスに変換する。
  • プログラムと分子に対して、再構成性能、事前妥当性、および最適化性能の向上を示す。

提案手法

  • 文脈と確率的属性に条件付けて生成規則をサンプリングする確率的構文指向デコーダを導入する。
  • 合成属性を可能にするために属性文法を確率的な遅延属性で拡張する。
  • 木の生成中に意味的制約を伝播するために継承属性を利用し、遅延結合を用いて意味的一致を強制する。
  • CFG由来のパース表現を潜在空間に写像する構造ベースのエンコーダを使用する。
  • 変分オートエンコーダの目的関数(ELBO)と、構文-directedデコーディングによって計算される尤度pθ(x|z)で訓練する。

実験結果

リサーチクエスチョン

  • RQ1構造化データ(CFGを越える場合を含む)に対して意味的制約をニューラル生成デコーダに統合する方法はどのようなものか?
  • RQ2遅延属性を用いたオンラインの意味的ガイダンスは、効率を損なうことなく統語的および意味的妥当性を向上させるか?
  • RQ3SD-VAEの表現は、プログラムと分子に対してCVAEおよびGVAEと比較して再構成、事前妥当性、および最適化性能を改善するか?

主な発見

  • SD-VAEはプログラムでほぼ完璧な再構成を達成し、プログラムとSMILESトークンの両方で非常に高い事前妥当性を示す。
  • SD-VAEデコーダ下での事前妥当性は評価において実質的に完璧で、ベースラインを大幅に上回る。
  • SD-VAEはベイズ最適化をより効果的に可能にし、CVAEおよびGVAEよりもターゲット特性の良いプログラムと分子を見つける。
  • SD-VAEが学習した潜在表現は、ベースラインより識別性が高い(RMSEが低く、対数尤度が高い)。
  • 本手法は生成分子の多様性を維持しつつ、意味的に妥当な構造への出力空間を絞り込む。
  • 可視化は、従来法と比較して、潜在空間の補間がより滑らかで一貫性があることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。