[論文レビュー] MathDial: A Dialogue Tutoring Dataset with Rich Pedagogical Properties Grounded in Math Reasoning Problems
本稿では、多段階の数学文章問題を背景にした、3,000件のサンプルから成る会話型チューティングデータセットMATHDIALを紹介する。このデータセットは、人間の教師と、学生の誤りを模倣するようにプロンプトされたLLMを組み合わせることで作成されたもので、教育的で整合性のあるスキャフォールディングを用いた微調整により、LLMを効果的なチューターにすることが可能となる。このアプローチは、ゼロショットLLMに比べて学生の成績向上率を著しく上回り、解答の漏洩も低減する。
While automatic dialogue tutors hold great potential in making education personalized and more accessible, research on such systems has been hampered by a lack of sufficiently large and high-quality datasets. Collecting such datasets remains challenging, as recording tutoring sessions raises privacy concerns and crowdsourcing leads to insufficient data quality. To address this, we propose a framework to generate such dialogues by pairing human teachers with a Large Language Model (LLM) prompted to represent common student errors. We describe how we use this framework to collect MathDial, a dataset of 3k one-to-one teacher-student tutoring dialogues grounded in multi-step math reasoning problems. While models like GPT-3 are good problem solvers, they fail at tutoring because they generate factually incorrect feedback or are prone to revealing solutions to students too early. To overcome this, we let teachers provide learning opportunities to students by guiding them using various scaffolding questions according to a taxonomy of teacher moves. We demonstrate MathDial and its extensive annotations can be used to finetune models to be more effective tutors (and not just solvers). We confirm this by automatic and human evaluation, notably in an interactive setting that measures the trade-off between student solving success and telling solutions. The dataset is released publicly.
研究の動機と目的
- 教育分野における会話型チューティングシステムの訓練に向けた、高品質でスケーラブルなデータセットの不足に対処すること。
- 実際のチューティング会話の収集において、クラウドソーシングやプライバシーを侵害する記録の限界を克服すること。
- 人間の専門知識とLLMが模倣する学生の誤解や誤りを組み合わせた、準合成的データ収集フレームワークを構築し、教育的意義の高い会話を得ること。
- 解答を早期に明かさずに、公平でスキャフォールディングに基づいたフィードバックを提供できるモデルの訓練を可能にするデータセットの作成。
- 微調整済みモデルのインタラクティブなチューティングパフォーマンスをベンチマーク化し、学生の成績向上率と解答の漏洩の両方を測定すること。
提案手法
- 人間の教師と、数学文章問題における一般的な学生の誤解や誤りを模倣するようにプロンプトされたLLMを組み合わせたハイブリッドデータ収集フレームワークを採用する。
- 教師は、概念的理解を促進するために、4つの教師の行動(例:確認、問いかけ、要約、再指向)の分類に従って、模倣された学生を導く。
- 各会話は、GSM8Kデータセットからの実際の数学文章問題に基づいており、学生の混乱、正解、フィードバックの根拠に関するアノテーションが付与されている。
- 教師の行動、根拠、会話構造に関する豊富なアノテーションが付された、2,861件の1対1チューティング会話が含まれる。
- MATHDIALデータを用いて、オープンソースのLLM(例:Flan-T5)を微調整し、単なる問題解決者ではなく、チューターとしての能力を訓練する。
- インタラクティブなシミュレーションにより、段階数の異なる問題において、学生の解答成功率と解答の漏洩(答えを教える)の度合いを測定することで、チューターのモデルを評価する。
実験結果
リサーチクエスチョン
- RQ1人間のチューターとLLMが模倣する学生を組み合わせた準合成的データ収集フレームワークは、高品質で教育的意義のあるチューティング会話を生成できるか?
- RQ2MATHDIALで微調整することで、モデルのチューターとしての能力が向上し、特に解答の漏洩を回避する能力が高まるか、その程度はどの程度か?
- RQ3微調整済みモデルのパフォーマンスは、複雑さの異なる問題において、ゼロショットLLM(例:ChatGPT)と比較して、学生の成績向上率と解答の明かし方の両面でどのように異なるか?
- RQ4フィードバックにスキャフォールディングの行動を用いることで、インタラクティブなチューティングシミュレーションにおける学生の学習成果が向上するか?
主な発見
- 微調整済みのFlan-T5モデルは、5段階の数学問題において77%の成功率を達成し、ゼロショットのChatGPT(57%の成功率、14%の解答漏洩)を上回った。
- 10段階の問題では、微調整済みのFlan-T5モデルが68%の成功率を記録し、解答漏洩はたったの2%にとどまったが、ChatGPTは77%の成功率を示したものの、解答漏洩は20%に上昇した。
- 2段階を超える問題では、すべてのモデルの成功率が著しく低下しており、推論の一般化能力の向上が求められることが示された。
- 人間による評価では、ChatGPTがチューティングを依頼された際、答えを66%の確率で明かしており、誤ったフィードバックを59%の確率で提供していた。
- MATHDIALデータセットを用いることで、微調整済みモデルは、より大きなゼロショットLLMに匹敵またはそれを上回る成功率を達成し、著しく低い解答漏洩率を維持できた。
- 本データセットはhttps://github.com/eth-nlped/mathdialにて公開されており、教育的根拠に基づいた会話型チューティング分野におけるスケーラブルな研究を支援する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。