[论文解读] pyKT: A Python Library to Benchmark Deep Learning based Knowledge Tracing Models
pyKT 提供了一个标准化、开源的 Python 基准测试,用于 DLKT,具备标准化的数据预处理、数据集和 SOTA 模型实现,便于公平比较和现实世界的评估协议。
Knowledge tracing (KT) is the task of using students' historical learning interaction data to model their knowledge mastery over time so as to make predictions on their future interaction performance. Recently, remarkable progress has been made of using various deep learning techniques to solve the KT problem. However, the success behind deep learning based knowledge tracing (DLKT) approaches is still left somewhat unknown and proper measurement and analysis of these DLKT approaches remain a challenge. First, data preprocessing procedures in existing works are often private and custom, which limits experimental standardization. Furthermore, existing DLKT studies often differ in terms of the evaluation protocol and are far away real-world educational contexts. To address these problems, we introduce a comprehensive python based benchmark platform, extsc{pyKT}, to guarantee valid comparisons across DLKT methods via thorough evaluations. The extsc{pyKT} library consists of a standardized set of integrated data preprocessing procedures on 7 popular datasets across different domains, and 10 frequently compared DLKT model implementations for transparent experiments. Results from our fine-grained and rigorous empirical KT studies yield a set of observations and suggestions for effective DLKT, e.g., wrong evaluation setting may cause label leakage that generally leads to performance inflation; and the improvement of many DLKT approaches is minimal compared to the very first DLKT model proposed by Piech et al. \cite{piech2015deep}. We have open sourced extsc{pyKT} and our experimental results at https://pykt.org/. We welcome contributions from other research groups and practitioners.
研究动机与目标
- 通过标准化的实证评估评估基于深度学习的知识追踪的进展。
- 提供一个端到端的 PyTorch 基准测试,具备可复现的数据预处理、数据集划分和 SOTA DLKT 实现。
- 分析评估协议,识别在真实教育情境中影响 DLKT 性能的因素。
- 提供减少标签泄露和提升 DLKT 研究可重复性的指导和最佳实践。
提出的方法
- 整理七个公开的 KT 数据集并将它们预处理为标准化格式。
- 实现并整理十个代表性的 DLKT 模型,涵盖多样的体系结构家族(如深序列、记忆增强、对抗、基于图、注意力等)。
- 将评估协议标准化,包括训练/验证/测试划分、一步和多步预测场景,并以 AUC 作为主要指标。
- 将问题扩展到 KC 级别的交互,以实现公平的 KC 级评估,同时突出全一体 KC 融合方法。
- 提供 KC 融合策略(早期融合、晚期融合变体以及严格融合),并比较它们对预测的影响。
- 记录并执行全一体 KC 预测方法,以避免标签泄露并确保真实的评估。
实验结果
研究问题
- RQ1在真实教育情境中,DLKT 算法的可靠、现实的评估过程是什么?
- RQ2数据特征、模型设计和预测场景如何影响 DLKT 的性能?
- RQ3标准化的预处理和评估是否能减少不公平比较并提高 DLKT 研究的可重复性?
主要发现
- AKT 在大多数数据集上通常优于大多数基线,且在同时具有问题和 KC 信息时表现最好,尤其是使用单调注意力和 Rasch 模型样嵌入时。
- 许多最近的 DLKT 模型在跨数据集上并不始终优于原生 DKT 基线,表明在某些情况下收益微小。
- 在扩展的 KC 序列上逐一评估会导致标签泄露,抬高报告的性能并错误地反映真实能力。
- 在若干数据集上,长互动和短互动学生之间存在显著的性能差异,表明上下文长度与 KC 共现模式相关。
- KC 融合方法(晚期平均、MV 等)带来微小的性能差异,LF-AVG 常表现最好,EF 对某些模型的适用性较差。
- 评估协议和数据预处理显著影响结果,强调需要标准化的现实世界评估程序。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。