QUICK REVIEW

[論文レビュー] Program Induction by Rationale Generation : Learning to Solve and Explain Algebraic Word Problems

Ling Wang, Dani Yogatama|arXiv (Cornell University)|May 11, 2017

Topic Modeling参考文献 18被引用数 29

ひとこと要約

本論文は、代数的単語問題を解くために、数学的式を含む自然言語の推論（段階的説明）を生成するプログラム誘導フレームワークを提案する。推論を潜在変数としてモデル化し、プログラム探索をガイドすることで、推論の流れと正解の正確性の両方が向上し、新規に作成された10万件のサンプルから成る数学問題データセットにおいて、ベースラインのニューラルモデルよりも顕著に高い性能を達成した。

ABSTRACT

Solving algebraic word problems requires executing a series of arithmetic operations---a program---to obtain a final answer. However, since programs can be arbitrarily complicated, inducing them directly from question-answer pairs is a formidable challenge. To make this task more feasible, we solve these problems by generating answer rationales, sequences of natural language and human-readable mathematical expressions that derive the final answer through a series of small steps. Although rationales do not explicitly specify programs, they provide a scaffolding for their structure via intermediate milestones. To evaluate our approach, we have created a new 100,000-sample dataset of questions, answers and rationales. Experimental results show that indirect supervision of program learning via answer rationales is a promising strategy for inducing arithmetic programs.

研究の動機と目的

代数的単語問題における質問と回答のペアから、複雑な算術プログラムを誘導する課題に対処すること。
解法プロセスを構造化する自然言語の推論を生成することで、モデルの解釈可能性と学習効率を向上させること。
10万件の代数的単語問題に、アノテート済みの推論と正解が付与された大規模かつ高品質なデータセットを作成すること。
問題の解決に必要な推論と潜在的なプログラムを同時に生成する、シーケンス・ツー・シーケンスモデルを開発すること。
直接的な正解予測よりも、推論による間接的監視が、より良いプログラム誘導を可能にすることを示すこと。

提案手法

モデルは、注目機構とコピーメカニズムを備えたシーケンス・ツー・シーケンスアーキテクチャを用い、自然言語と記号的式を含む推論を生成する。
観測された推論を生成し、正しい答えに至る妥当なプログラムを探索するためのヒューリスティック探索戦略を採用する。
推論を潜在変数として扱い、正しい算術プログラムの探索をガイドすることで、中間のマイルストーンを提供する。
入力コピーと出力コピーのメカニズムを組み込むことで、推論における変数や値の生成を改善する。
実行した結果が推論と最終的な答えを生成する可能性のある演算手順の組み合わせを探索することで、プログラムを同定する。
推論の流れ（BLEUで測定）と正解の正確性の両方を同時に最適化する。

実験結果

リサーチクエスチョン

RQ1中間の推論を生成することで、代数的単語問題の算術プログラムの誘導が向上するか？
RQ2直接的な正解予測と比較して、推論を潜在的なスケルトンとして用いることで、プログラム誘導の探索空間が小さくなるか？
RQ3明示的なプログラムの監視なしに、ニューラル・シーケンス・モデルが流暢な推論を生成し、正しいプログラムを同定できるか？
RQ4推論誘導型のプログラム誘導は、エンド・ツー・エンドの正解予測と比較して、正確性と解釈可能性の両面で優れているか？
RQ5コピーメカニズムとヒューリスティック探索は、モデルの正しい推論と解決策の生成能力をどの程度向上させるか？

主な発見

提案されたモデルは、最先端のシーケンス・ツー・シーケンスモデルを著しく上回り、代数的単語問題の解決タスクにおける正解率を2倍にした。
すべてのベースラインモデルはほぼ確率的水準（約20％の正確性）にとどまり、推論の監視なしでは直接的な正解予測は効果が薄いことが示された。
すべてのバリエーションの中で最高のBLEUスコアを達成し、推論生成の流れと正確性の両面で優れた性能を示した。
出力コピー機構の導入によりBLEUスコアが向上したが、周辺度（perplexity）にはほとんど寄与しなかった。これは、コピーされたトークンがソフトマックスや入力コピーによっても生成可能であるためである。
モデルは「10スライスのケーキから120スライスをとる」といった簡単な問題を1〜2ステップで正しく解き、『120 / 10 = 12 ケーキ。答えはC』のような推論を生成できた。
ヒューリスティック探索戦略は不可欠である。推論モデルなしでは、探索空間が広すぎて、効果的なプログラム誘導が不可能だった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。