[論文レビュー] Ape210K: A Large-Scale and Template-Rich Dataset of Math Word Problems
Ape210K は豊富なテンプレート(56K)を備えた大規模な中国語算数 word problem データセット(210K 問題)と、コピー拡張の seq2seq ベースラインを提供します。Math23K ベースのモデルとベンチマークの人間レベルの性能には限界があることを明らかにします。
Automatic math word problem solving has attracted growing attention in recent years. The evaluation datasets used by previous works have serious limitations in terms of scale and diversity. In this paper, we release a new large-scale and template-rich math word problem dataset named Ape210K. It consists of 210K Chinese elementary school-level math problems, which is 9 times the size of the largest public dataset Math23K. Each problem contains both the gold answer and the equations needed to derive the answer. Ape210K is also of greater diversity with 56K templates, which is 25 times more than Math23K. Our analysis shows that solving Ape210K requires not only natural language understanding but also commonsense knowledge. We expect Ape210K to be a benchmark for math word problem solving systems. Experiments indicate that state-of-the-art models on the Math23K dataset perform poorly on Ape210K. We propose a copy-augmented and feature-enriched sequence to sequence (seq2seq) model, which outperforms existing models by 3.2% on the Math23K dataset and serves as a strong baseline of the Ape210K dataset. The gap is still significant between human and our baseline model, calling for further research efforts. We make Ape210K dataset publicly available at https://github.com/yuantiku/ape210k
研究の動機と目的
- 既存のベンチマークを超える、より大規模で多様な算数の文章題データセットの必要性を喚起する。
- 解法技術の向上を図るために、金標本の解答と導出方程式を含むデータセットを提供する。
- 多数のテンプレートを通じた多様性を示し、必要な常識知識を分析する。
提案手法
- コピー拡張と特徴量強化を備えた sequence-to-sequence (seq2seq) モデルを提案する。
- このモデルが Math23K の既存モデルを 3.2% 上回すことを示す。
- データセットとして Ape210K をベンチマーク評価し、現行モデルと人間のパフォーマンスとのギャップを分析する。
実験結果
リサーチクエスチョン
- RQ1より大規模でテンプレート豊富なデータセットは、算数の文章題解法モデルを改善できるか?
- RQ2Ape210K の問題を解くには、自然言語理解と常識知識の両方がモデルに必要か?
- RQ3コピー拡張型 seq2seq モデルは、大規模 MWP ベンチマークで Math23K のベースラインと比較してどのように性能を発揮するか?
主な発見
- Ape210K には 210K 問題が含まれており、最大の公開データセット Math23K の 9 倍の規模である。
- Ape210K には 56K テンプレートが含まれ、Math23K の 25 倍である。
- Ape210K の解法は、言語理解と常識知識の両方を、Math23K の能力を超えて要求する。
- 提案されたコピー拡張、特徴量強化された seq2seq モデルは Math23K のベースラインを 3.2% 上回る。
- 現行モデルと人間のパフォーマンスとの間には依然として大きなギャップがある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。