[论文解读] Survey of Computerized Adaptive Testing: A Machine Learning Perspective
面向机器学习的计算机化自适应测试(CAT)综述,概述认知诊断、题目选择、题库构建和测试控制,以及一个开源工具包。
Computerized Adaptive Testing (CAT) offers an efficient and personalized method for assessing examinee proficiency by dynamically adjusting test questions based on individual performance. Compared to traditional, non-personalized testing methods, CAT requires fewer questions and provides more accurate assessments. As a result, CAT has been widely adopted across various fields, including education, healthcare, sports, sociology, and the evaluation of AI models. While traditional methods rely on psychometrics and statistics, the increasing complexity of large-scale testing has spurred the integration of machine learning techniques. This paper aims to provide a machine learning-focused survey on CAT, presenting a fresh perspective on this adaptive testing paradigm. We delve into measurement models, question selection algorithm, bank construction, and test control within CAT, exploring how machine learning can optimize these components. Through an analysis of current methods, strengths, limitations, and challenges, we strive to develop robust, fair, and efficient CAT systems. By bridging psychometric-driven CAT research with machine learning, this survey advocates for a more inclusive and interdisciplinary approach to the future of adaptive testing.
研究动机与目标
- 介绍面向机器学习的CAT综述,以连接心理测量学和ML。
- 提出覆盖CAT生命周期的统一框架:认知诊断模型、选择算法、题库构建和测试控制。
- 分析当前基于ML的CAT方法及其优点、局限性和挑战。
- 强调对可靠CAT至关重要的因素(内容平衡、公平性、鲁棒性、搜索效率),并提出未来方向。
- 提供开源、可扩展的实现,以支持快速的CAT开发(EduCAT)。
提出的方法
- 从四个以ML为中心的组成部分回顾CAT:Cognitive Diagnosis Model (CDM)、Selection Algorithms、Question Bank Construction、以及Test Control。
- 用CDM输出解释具备熟练度估计和自适应题目选择的正式CAT任务。
- 调查传统(统计)和现代(RL、元学习、子集选择)选择方法,包括关键方程和目标。
- 将CDMs分为潜在特质模型、诊断分类模型和深度学习模型,并给出代表性示例。
- 讨论熟练度估计和CAT有效性的评估方法,包括基于交叉熵和均方误差(MSE)的评估。
实验结果
研究问题
- RQ1在CAT中,使用哪些机器学习方法来建模熟练度和选择题目?
- RQ2认知诊断模型、选择算法和题库构建方法如何相互作用,从而影响CAT的可靠性、公平性和效率?
- RQ3基于ML的CAT系统当前的局限性和未来方向是什么,开源工具如何推动研究?
主要发现
- 本综述提供了首个基于机器学习的、覆盖CDM、选择、题库构建和测试控制的CAT综合评述。
- 它强调在先前评审中常被忽视的、对可靠CAT至关重要的因素,如内容平衡、公平性、鲁棒性和搜索效率。
- 它指出ML技术(深度学习、RL、元学习)在熟练度诊断、数据驱动的题目选择和自动化题库构建方面显示出潜力。
- 一个可扩展的开源库(EduCAT)已开源,帮助研究人员开发和比较CAT系统。
- 本文将CAT工作分为四个部分,并讨论实际部署中的暴露控制、鲁棒性等实际考虑因素。
- 它将经典心理测量学基础与现代ML方法连接起来,为整合与跨学科的CAT研究提供指导。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。