[论文解读] MathDial: A Dialogue Tutoring Dataset with Rich Pedagogical Properties Grounded in Math Reasoning Problems
本文提出 MATHDIAL,一个基于多步数学应用题的新型 3,000 个样本对话辅导数据集,通过将人类教师与模拟学生错误的 LLM 配对构建而成。该数据集支持对 LLM 进行微调,使其通过教学法合理的支架式教学成为有效的辅导者,在学生成功率方面显著优于零样本 LLM,同时有效减少解题泄露。
While automatic dialogue tutors hold great potential in making education personalized and more accessible, research on such systems has been hampered by a lack of sufficiently large and high-quality datasets. Collecting such datasets remains challenging, as recording tutoring sessions raises privacy concerns and crowdsourcing leads to insufficient data quality. To address this, we propose a framework to generate such dialogues by pairing human teachers with a Large Language Model (LLM) prompted to represent common student errors. We describe how we use this framework to collect MathDial, a dataset of 3k one-to-one teacher-student tutoring dialogues grounded in multi-step math reasoning problems. While models like GPT-3 are good problem solvers, they fail at tutoring because they generate factually incorrect feedback or are prone to revealing solutions to students too early. To overcome this, we let teachers provide learning opportunities to students by guiding them using various scaffolding questions according to a taxonomy of teacher moves. We demonstrate MathDial and its extensive annotations can be used to finetune models to be more effective tutors (and not just solvers). We confirm this by automatic and human evaluation, notably in an interactive setting that measures the trade-off between student solving success and telling solutions. The dataset is released publicly.
研究动机与目标
- 为解决教育领域对话辅导系统训练中缺乏高质量、可扩展数据集的问题。
- 克服众包和隐私侵犯性录音在收集真实辅导对话中的局限性。
- 开发一种半合成数据收集框架,结合人类专业知识与 LLM 模拟的学生错误,生成教学法丰富的对话。
- 构建一个支持模型提供公平、基于支架式反馈的数据集,而非过早揭示解题答案。
- 在交互式辅导性能上对微调模型进行基准测试,衡量学生成功率与解题泄露情况。
提出的方法
- 采用混合数据收集框架,将人类教师与经提示以模拟数学应用题中常见误解与错误的 LLM 配对。
- 教师使用 4 种教师行为分类(如澄清、探问、总结、引导)指导模拟学生,以促进概念理解。
- 每段对话均基于 GSM8K 数据集中的真实数学应用题,附有学生困惑、正确答案及反馈依据的标注。
- 该数据集包含 2,861 段一对一辅导对话,包含对教师行为、反馈依据及对话结构的丰富标注。
- 使用 MATHDIAL 数据对开源 LLM(如 Flan-T5)进行微调,使其成为辅导者而非仅解题者。
- 通过交互式模拟评估辅导模型,测量其在不同步骤数问题上的学生解题成功率与解题泄露(直接告知答案)情况。
实验结果
研究问题
- RQ1结合人类辅导者与 LLM 模拟学生的半合成数据收集框架,能否生成高质量、教学法丰富的辅导对话?
- RQ2在 MATHDIAL 上进行微调后,模型在避免解题泄露方面,其作为辅导者的能力相比作为解题者的能力提升程度如何?
- RQ3在不同复杂度的问题上,微调模型与零样本 LLM(如 ChatGPT)在学生成功率与解题泄露方面的表现有何差异?
- RQ4在反馈中使用支架式教学行为是否能带来更好的学生学习成效?
主要发现
- 微调后的 Flan-T5 模型在 5 步数学问题上达到 77% 的成功率,优于零样本的 ChatGPT(57% 成功率,14% 解题泄露)。
- 在 10 步问题上,微调后的 Flan-T5 模型达到 68% 成功率,仅 2% 解题泄露,而 ChatGPT 的成功率虽达 77% 但泄露率高达 20%。
- 所有模型在超过 2 步的问题上成功率显著下降,表明其推理泛化能力仍需提升。
- 人工评估确认,当被要求担任辅导者时,ChatGPT 有 66% 的时间直接揭示答案,且 59% 的时间给出错误反馈。
- MATHDIAL 数据集使微调模型在成功率上可匹配或超越更大规模的零样本 LLM,同时显著降低解题泄露率。
- 该数据集已公开发布于 https://github.com/eth-nlped/mathdial,支持基于教学法的对话辅导研究的可扩展发展。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。