[论文解读] Collaborative and AI-aided Exam Question Generation using Wikidata in Education
本文提出 PhysWikiQuiz,一种多语言、人工智能辅助的框架,利用 Wikidata 实现协作式、可扩展且自动化的物理考试题目生成,具备自动答案校正与解释功能。通过从 Wikidata 中检索公式与变量,应用数学实体链接,并利用计算机代数系统(CAS)进行验证,该系统可为每个公式概念生成最多 300 个唯一题目,实现 50% 的端到端题目生成与校正成功率,解释文本准确率达 27%。
Since the COVID-19 outbreak, the use of digital learning or education platforms has significantly increased. Teachers now digitally distribute homework and provide exercise questions. In both cases, teachers need to continuously develop novel and individual questions. This process can be very time-consuming and should be facilitated and accelerated both through exchange with other teachers and by using Artificial Intelligence (AI) capabilities. To address this need, we propose a multilingual Wikimedia framework that allows for collaborative worldwide teacher knowledge engineering and subsequent AI-aided question generation, test, and correction. As a proof of concept, we present >>PhysWikiQuiz<<, a physics question generation and test engine. Our system (hosted by Wikimedia at https://physwikiquiz.wmflabs.org) retrieves physics knowledge from the open community-curated database Wikidata. It can generate questions in different variations and verify answer values and units using a Computer Algebra System (CAS). We evaluate the performance on a public benchmark dataset at each stage of the system workflow. For an average formula with three variables, the system can generate and correct up to 300 questions for individual students based on a single formula concept name as input by the teacher.
研究动机与目标
- 为解决在数字化教育环境中,为多样化学生手动创建个性化考试题目耗时过长的挑战。
- 通过将 Wikidata 作为共享的开放语义知识库,实现教师之间的协作式、多语言知识工程。
- 开发一种人工智能辅助系统,利用 Wikidata 中的公式概念,大规模自动生成、校正并解释物理题目。
- 相比现有由单一维护者管理的题库,提升可扩展性与覆盖范围,后者受限于概念可用性的不足。
提出的方法
- 以概念名称为输入,从 Wikidata 中检索物理公式、变量和单位。
- 应用数学实体链接技术,识别不同符号与记法下的等价公式表达形式。
- 使用计算机代数系统(CAS)对公式进行重排、求解每个变量,并为标识符生成随机值。
- 生成面向学生的题目,包含变量名、符号、单位及计算路径。
- 通过将学生答案的数值与单位与 CAS 计算结果对比,实现答案验证。
- 提供 API 接口以集成至外部教育平台,并支持多语言输出。
实验结果
研究问题
- RQ1当前最先进的 AI 辅助题目生成系统有哪些?其不足之处如何得以弥补?
- RQ2在从 Wikidata 生成题目时,哪些信息检索方法与数据库最为有效?
- RQ3该框架在端到端题目生成、校正与解释方面可实现怎样的性能?
- RQ4各系统模块对整体性能的贡献如何?
- RQ5在实现过程中面临哪些挑战?如何加以缓解?
主要发现
- 系统可成功生成并校正每个公式概念最多 300 个唯一题目,展现出高度可扩展性。
- PhysWikiQuiz 实现了 99% 的基准物理概念覆盖率(469 / 475),远超竞争对手如 'physQuiz'(2%)和 'Mr Watts Physics'(8%)。
- 仅有 50% 的公式条目可完全处理为题目,原因在于公式结构问题、标识符不可用或 Wikidata 数据质量不佳。
- 解释文本生成在 27% 的情况下成功,其中 39% 的生成结果在符号、数值与单位替换后语义正确。
- 主要瓶颈来自外部依赖,尤其是 CAS(Sympy)与翻译器(LaCASt),以及 Wikidata 条目质量的不一致性。
- 用户反馈与 Wikidata 中更优的数据质量指南预计将显著提升系统性能与覆盖率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。