Skip to main content
QUICK REVIEW

[論文レビュー] Analysing Mathematical Reasoning Abilities of Neural Models

David Saxton, Edward Grefenstette|arXiv (Cornell University)|Apr 2, 2019
Topic Modeling参考文献 28被引用数 87
ひとこと要約

この論文は、自由形式の数式問題の大規模 procedurally generated データセットを導入し、ニューラル系列-to-系列モデルの代数・記号推論を評価する。再帰型と Transformer アーキテクチャを比較し、一般化を分析する。Transformer モデルは一般に再帰型を上回る傾向だが、外挿、途中計算、真のアルゴリズム推論は現状のモデルには依然困難である。

ABSTRACT

Mathematical reasoning---a core ability within human intelligence---presents some unique challenges as a domain: we do not come to understand and solve mathematical problems primarily on the back of experience and evidence, but on the basis of inferring, learning, and exploiting laws, axioms, and symbol manipulation rules. In this paper, we present a new challenge for the evaluation (and eventually the design) of neural architectures and similar system, developing a task suite of mathematics problems involving sequential questions and answers in a free-form textual input/output format. The structured nature of the mathematics domain, covering arithmetic, algebra, probability and calculus, enables the construction of training and test splits designed to clearly illuminate the capabilities and failure-modes of different architectures, as well as evaluate their ability to compose and relate knowledge and learned processes. Having described the data generation process and its potential future expansions, we conduct a comprehensive analysis of models from two broad classes of the most powerful sequence-to-sequence architectures and find notable differences in their ability to resolve mathematical problems and generalize their knowledge.

研究の動機と目的

  • スケーラブルで自由形式のテキストベースの数学問題データセットを作成し、ニューラル推論と記号操作を検証する。
  • 最新の系列モデルが問題タイプ全体および難易度の高い外挿シナリオへどの程度一般化するかを評価する。
  • 代数一般化とサブルーチンの組み合わせにおけるモデルの強み・弱み・故障モードを特定する。

提案手法

  • モジュール(代数、四則演算、微積分、確率など)全体にわたる多様な数学問題を手続き的に生成する。
  • 質問と回答を自由形式の文字列として表現し、幅広い表現力を許す。
  • 入力–出力として回答を生成する2つの大きなモデルクラス(再帰アーキテクチャと Transformer)を評価する。
  • LSTM用の注意機構付きのエンコーダ–デコーダ設定と、全Transformerの autoregressive な文字レベルデコードを実装する。
  • 一定の計算予算(思考ステップ)とハイパーパラメータ探索を用いて、アーキテクチャ間の性能を比較する。
  • インターポレーションとエクストラポラションのテストセット全体で、正確な文字列一致(0または1)で回答を評価する。

実験結果

リサーチクエスチョン

  • RQ1自由形式の入力/出力の下で、ニューラル系列モデルは複数のトピックに跨る数学的推論を学習・一般化できるか。
  • RQ2記号数学における再帰モデルとTransformerモデルの相対的な強みと故障モードは何か。
  • RQ3トレーニング中に見られなかったより難しい・大規模な問題へどれだけ一般化できるか(外挿)。
  • RQ4モデルは表面的なヒューリスティクスに頼るのか、組み合わせ問題を解く際に代数的一般化に似た能力を示すか。

主な発見

  • Transformers は、多くのモジュールで平均精度が再帰モデルを上回ることが多く、特に十分な思考ステップを取った後に顕著。
  • Relational Memory Cores は LSTMs に勝らず、データ効率が低い場合がある。
  • Attentional LSTMs は単純な LSTMs より改善されるが、タスクごとに利得は異なる。思考ステップを増やすと一部のモデルで有利。
  • 多項式操作と混合演算は特に難しく、Transformer がいくつかの多項式タスクで利点を示す。
  • 外挿性能は限定的で、訓練分布を超えた genuine algebraic generalization にモデルが苦戦していることを示す。
  • 実際の試験問題では、Transformer モデルが 14/40、だいたい E 判定に相当し、ベンチマークのタスクと実世界の数学テストとのギャップを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。