QUICK REVIEW

[論文レビュー] MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms

Aida Amini, Saadia Gabriel|arXiv (Cornell University)|May 30, 2019

Topic Modeling参考文献 22被引用数 119

ひとこと要約

MathQAを紹介する。数学ワード問題の操作プログラムを完全に仕様化した大規模データセットと、問題を実行可能な操作シーケンスへマップする、ドメイン認識的分類を用いるニューラルのシーケンス・ツー・プログラムモデル。提案手法はMathQAおよびAQuAのベースラインを上回るが、人間の性能には及ばない。

ABSTRACT

We introduce a large-scale dataset of math word problems and an interpretable neural math problem solver that learns to map problems to operation programs. Due to annotation challenges, current datasets in this domain have been either relatively small in scale or did not offer precise operational annotations over diverse problem types. We introduce a new representation language to model precise operation programs corresponding to each math problem that aim to improve both the performance and the interpretability of the learned models. Using this representation language, our new dataset, MathQA, significantly enhances the AQuA dataset with fully-specified operational programs. We additionally introduce a neural sequence-to-program model enhanced with automatic problem categorization. Our experiments show improvements over competitive baselines in our MathQA as well as the AQuA dataset. The results are still significantly lower than human performance indicating that the dataset poses new challenges for future research. Our dataset is available at: https://math-qa.github.io/math-QA/

研究の動機と目的

正確な操作プログラムを伴う大規模で高密度に注釈された数学ワード問題データセットを提供する。
解釈性と性能を高めるための新しい操作ベースの表現言語を提案する。
問題を操作プログラムへ写像するニューラルシーケンス・ツー・プログラムモデルを開発し、ドメイン分類で適切に条件付けする。

提案手法

58個の操作と引数を用いて問題解決の手順をモデル化する正式な操作プログラム表現言語を定義する。
動的注釈プラットフォームを用いて、操作プログラムと連携した問題のクラウドソース注釈を行う。
問題→プログラムの写像をニューラル機械翻訳として捉え、問題文から操作プログラムを生成するエンコーダ-デコーダモデルを訓練する。
解読を問題領域で条件付けるため、ドメイン認識的分類を用いてモデルを拡張する。
デコードされた操作プログラムを順次実行して解を得、ビーム探索を用いて選択肢と整合させる。
MathQAおよびAQuAデータセットで評価し、ベースラインや従来の最先端と比較する。

実験結果

リサーチクエスチョン

RQ1算術ワード問題解法において、操作ベースの形式化は解釈性と性能を向上させるか。
RQ2シーケンス・ツー・プログラムモデルにドメイン認識的分類を組み込むことで、さまざまな数学問題領域の解法精度は向上するか。
RQ3提案されたMathQAデータセットと表現方法は、AQuAなど既存データセットと比較してニューラルソルバーの性能にどのような影響を与えるか。

主な発見

Model	MathQA	AQuA
Random	20.0	20.0
AQuA Model	-	36.4
Seq2prog	51.9	33.0
Seq2prog + cat	54.2	37.9

カテゴリ化を用いた Seq2prog モデルは、MathQAおよびAQuAのテストセットの両方でベースの Seq2prog モデルを上回る。
MathQAとAQuAのテスト付きの Seq2prog の正答率はそれぞれ51.9と33.0、Seq2prog＋catはそれぞれ54.2と37.9。
MathQAにおけるモデルの性能は人間の性能を下回っており、データセットが将来の研究に新たな課題を提示していることを示している。
クラウドソースの操作プログラムは、問題文の文脈と整合した精密で解釈可能な推論手順を可能にする。
カテゴリ認識型モデルは、一定の精度向上をもたらす modest な効果を示し、 subset における人間の注釈者はモデルの分類と84%の一致を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。