Skip to main content
QUICK REVIEW

[论文解读] T-SKIRT: Online Estimation of Student Proficiency in an Adaptive Learning System

Chaitanya Ekanadham, Yan Karklin|arXiv (Cornell University)|Feb 14, 2017
Intelligent Tutoring Systems and Adaptive Learning参考文献 4被引用 18
一句话总结

T-SKIRT 是一种基于项目反应理论(IRT)的时序性、结构化知识模型,通过联合建模学生随时间的学习过程与多维能力水平,并引入专家定义的概念关系,提升了在线学生答题预测的准确性。在真实自适应学习数据上,其准确率相比标准 IRT 模型提升了 2.8%,尤其在难以预测的学生群体中表现显著。

ABSTRACT

We develop T-SKIRT: a temporal, structured-knowledge, IRT-based method for predicting student responses online. By explicitly accounting for student learning and employing a structured, multidimensional representation of student proficiencies, the model outperforms standard IRT-based methods on an online response prediction task when applied to real responses collected from students interacting with diverse pools of educational content.

研究动机与目标

  • 为解决标准项目反应理论(IRT)在自适应学习系统中的局限性,即假设学生能力恒定,尽管学习仍在持续进行。
  • 通过建模学生能力的时序波动,提升答题预测准确性,而标准 IRT 无法捕捉此类波动。
  • 引入多维、专家标注的知识结构(概念及其先决条件),以超越单维 IRT 更好地表征学生能力。
  • 在真实生产环境中评估模型性能——即使用所有先前交互记录预测下一次学生答题——而非采用随机留出或理想化的评估协议。
  • 证明时序动态与结构化知识先验均能在真实教育数据上带来可测量的预测性能提升。

提出的方法

  • 采用双参数 IRT(2PO)框架,使用 probit 链接函数,将正确答题的概率建模为学生能力(θ)、题目难度(β)和题目区分度(α)的函数。
  • 通过在学生能力上引入维纳过程先验,引入时序成分,使 θ 随时间演化,包含漂移项与方差参数 ν,支持对学生能力估计的在线更新。
  • 对多维能力水平使用多变量正态(MVN)先验,基于专家定义的先决关系建立概念间的结构化相关性(γ = 0.5),并采用弱信息先验(ν = 0.1)。
  • 采用贝叶斯推理框架,通过近似后验最大化估计当前学生能力(θ̂),并基于此利用 IRT 模型预测下一次答题。
  • 采用分层先验结构,其超参数在训练数据上进行调优,包括 λ(能力精度)、ν(时序方差)和 γ(概念间相关性强度)。
  • 使用凸优化方法(基于梯度)在每一步估计学生能力,确保实时在线预测的计算效率。

实验结果

研究问题

  • RQ1在真实自适应学习系统中,将时序动态纳入 IRT 是否能显著提升在线答题预测的准确性?
  • RQ2通过建模具有专家定义概念关系的多维学生能力水平,是否能比单维 IRT 实现更好的预测性能?
  • RQ3结合时序建模与结构化多维先验,是否能产生协同增益,优于标准 IRT 或单一改进?
  • RQ4模型性能在不同总体正确率的学生中如何变化,特别是那些难以预测的学生?
  • RQ5与忽略此类结构的模型相比,专家提供的概念关系在多大程度上提升了预测准确性?

主要发现

  • 在 IRT 框架中引入时序动态(通过在能力上使用维纳过程先验)使预测准确率相比标准 2PO IRT 提升了 2.0%。
  • 使用具有专家定义概念分组的多维能力模型,使准确率相比标准 2PO IRT 提升了 1.6%。
  • 通过相关 MVN 先验(γ = 0.5)引入概念间的结构化相关性,带来额外 0.3% 的提升,使总提升达到 1.9%。
  • 完整版 T-SKIRT 模型——结合时序动态、多维能力水平与结构化先验——在真实学生数据上相比标准 2PO IRT 实现了 2.8% 的准确率提升(0.7478 vs. 0.7201)。
  • 性能提升在总体正确率中等至偏低的学生中最为显著,表明 T-SKIRT 更好地捕捉了这些困难情境下的不确定性与学习进展。
  • 对于正确率极高或极低的学生,T-SKIRT 略低于标准 2PO IRT,提示在建模极端能力水平时可能存在局限性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。