Skip to main content
QUICK REVIEW

[論文レビュー] From Language to Programs: Bridging Reinforcement Learning and Maximum Marginal Likelihood

Kelvin Guu, Panupong Pasupat|arXiv (Cornell University)|Apr 25, 2017
Topic Modeling参考文献 38被引用数 41
ひとこと要約

この論文では、強化学習(RL)と最大限界尤度(MML)を統合することで、間接的教師付き条件下でのニューラル意味解析を改善する、RandoMerと呼ばれる新しい学習アルゴリズムを提案する。ランダム化ビームサーチによる探索と、β-功利的勾配更新を組み合わせることで、誤ったプログラムへの過学習を著しく軽減し、SCONEベンチマークにおいて最先端の性能を達成。特に困難なドメインでは、精度を30%以上向上させた。

ABSTRACT

Our goal is to learn a semantic parser that maps natural language utterances into executable programs when only indirect supervision is available: examples are labeled with the correct execution result, but not the program itself. Consequently, we must search the space of programs for those that output the correct result, while not being misled by spurious programs: incorrect programs that coincidentally output the correct result. We connect two common learning paradigms, reinforcement learning (RL) and maximum marginal likelihood (MML), and then present a new learning algorithm that combines the strengths of both. The new algorithm guards against spurious programs by combining the systematic search traditionally employed in MML with the randomized exploration of RL, and by updating parameters such that probability is spread more evenly across consistent programs. We apply our learning algorithm to a new neural semantic parser and show significant gains over existing state-of-the-art results on a recent context-dependent semantic parsing task.

研究の動機と目的

  • 間接的教師付き条件下、すなわち正解プログラムではなく正解実行出力のみが提供される状況において、意味解析器を学習する課題に対処すること。
  • 誤ったプログラムが偶然正しい出力を生成する「誤ったプログラム問題」を軽減するため、探索と勾配更新を改善すること。
  • 強化学習と最大限界尤度(MML)を統合し、それぞれの目的関数を統一し、長所を融合すること。
  • スタックベースのプログラミング言語でプログラムを生成するニューラル意味解析器を構築し、文脈依存的な言語現象(省略や先行詞参照など)を効果的に処理すること。
  • 誤ったプログラムへの過学習を低減することで、特に困難なドメインにおいてSCONEデータセットで最先端の性能を達成すること。

提案手法

  • ランダム化ビームサーチを提案。これは、MML由来の体系的ビームサーチと、RL由来のランダム化オフポリシー探索を統合したハイブリッド探索戦略であり、小さなビームサイズや初期化が悪い場合でも、正解プログラムの発見を向上させる。
  • β-功利的パラメータ更新ルールを導入。これは、正しい出力を生成するすべてのプログラムに対して勾配更新をより均等に分配することで、低確率だが誤ったプログラムへの過学習を軽減する。
  • RLとMMLの目的関数が密接に関連していることを示し、RLの探索戦略や分散低減技術をMMLに直接適用可能にすることで、両者の統合を実現する。
  • スタックベースのプログラミング言語でプログラムを出力するニューラルモデルを採用。これは、省略や先行詞参照といった文脈依存的な言語現象を効果的に処理できるように設計されている。
  • ゴールドプログラムを必要とせず、すべての可能なプログラムを通じて正しい出力を観測する確率を最大化するように、限界尤度推定を用いてモデルを訓練する。
  • 勾配更新に指数平滑化を適用し、一貫性のあるプログラム間での確率割り当ての均一性を促進することで、誤った解へのロバストネスを向上させる。

実験結果

リサーチクエスチョン

  • RQ1RL由来の探索戦略とMML由来の体系的探索を組み合わせることで、間接的教師付き意味解析における正解プログラムの発見が向上するか?
  • RQ2正しい出力を偶然生成する誤ったプログラムへの過学習を軽減するため、勾配更新をどのように変更できるか?
  • RQ3すべての正解プログラムが勾配更新に均等に寄与するβ-功利的更新ルールは、標準のMMLやRLの目的関数と比較して一般化性能をどの程度向上させるか?
  • RQ4RandoMerで訓練されたニューラル意味解析器は、SCONEのような文脈依存的意味解析ベンチマークで、既存の最先端モデルを上回る性能を発揮できるか?
  • RQ5ランダム化ビームサーチと功利的更新の統合は、標準のRLやMMLベースラインと比較して、よりロバストかつ一般化可能なプログラム生成を実現できるか?

主な発見

  • RandoMerは、SCONEデータセットにおいて、標準の強化学習および最大限界尤度ベースラインを著しく上回り、3つのドメインすべてで新たな最先端の結果を達成した。
  • SCONEの最も困難なドメインにおいて、RandoMerはLongら(2016)の前回の最先端モデルと比較して、精度を30%以上向上させた。
  • β-功利的更新ルールは、初期確率が低くても正解プログラムが勾配更新に公平に寄与するようにすることで、誤ったプログラムへの過学習を効果的に低減した。
  • ランダム化ビームサーチは探索を強化し、ポリシー分布が尖っている場合やビームサイズが小さい場合でも、正解プログラムの発見を可能にした。
  • ゴールドプログラムやラベル付きシーケンスの事前学習を必要としないため、弱教師付き意味解析に適した性能を発揮した。
  • 体系的探索とランダム化探索の組み合わせにより、単独で用いる場合よりも信頼性が高く、一般化性能に優れたプログラム生成が実現された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。