[论文解读] Tuned Models of Peer Assessment in MOOCs
本文提出概率模型,通过利用来自Coursera人机交互课程的63,199份大规模同伴评分数据,估计并校正评分者的偏差与可靠性,从而提高MOOC中同伴评分的准确性。与基于中位数的评分方法相比,该模型将均方根误差降低了30%以上,并揭示了评分者可靠性、参与度与表现之间的强关联。
In massive open online courses (MOOCs), peer grading serves as a critical tool for scaling the grading of complex, open-ended assignments to courses with tens or hundreds of thousands of students. But despite promising initial trials, it does not always deliver accurate results compared to human experts. In this paper, we develop algorithms for estimating and correcting for grader biases and reliabilities, showing significant improvement in peer grading accuracy on real data with 63,199 peer grades from Coursera's HCI course offerings --- the largest peer grading networks analysed to date. We relate grader biases and reliabilities to other student factors such as student engagement, performance as well as commenting style. We also show that our model can lead to more intelligent assignment of graders to gradees.
研究动机与目标
- 提高MOOC中同伴评分的准确性,因为非专家评分者常导致评分不一致或存在偏差。
- 建立针对评分者的偏差与可靠性的模型,以校正同伴评分中的个体差异。
- 探究评分者特征(如参与度、表现、评论风格)与评分质量之间的关系。
- 通过估计的评分者可靠性和偏差,实现更智能的评分者与作业分配。
- 通过估计评分中的不确定性,实现更公平、更透明的评分。
提出的方法
- 作者开发了基于贝叶斯框架的概率同伴评分模型(PG1、PG2、PG3),联合估计作业得分、评分者偏差与评分者可靠性。
- 模型PG3明确考虑了评分者本身也是学生(即他们既是评分者也是被评分者)的事实,从而实现自洽的性能估计。
- 模型采用分层先验结构以正则化估计结果,提升泛化能力,尤其适用于评分次数较少的评分者。
- 评分表现被建模为学生层面特征(如参与度、先前表现、评论风格)的函数。
- 系统估计每个作业最终得分的不确定性,从而实现更公平、更透明的评分。
- 模型在HCI1数据集上进行训练,并在独立的HCI2数据集上进行验证,以确保泛化能力。
实验结果
研究问题
- RQ1如何通过建模评分者特定的偏差与可靠性来提高同伴评分的准确性?
- RQ2哪些学生层面的因素(如参与度、表现、评论风格)与更高的评分者可靠性相关?
- RQ3与简单的中位数聚合方法相比,概率模型能否降低同伴评分中的RMSE?
- RQ4如何通过评分得分的不确定性估计提升公平性与透明度?
- RQ5该模型能否基于预测的可靠性,为评分者分配更合适的作业,从而实现更优的评分分配?
主要发现
- 与基线的中位数聚合方法相比,所提出的模型在同伴评分中将均方根误差(RMSE)降低了30%以上。
- 评分者可靠性与学生参与度、先前课程表现以及其自身评论质量密切相关。
- 投入更多时间进行评分的学生通常更准确,表明时间投入是评分质量的关键预测因子。
- 该模型成功估计了作业得分的不确定性,从而实现了更公平、更透明的评分结果。
- 使用概率模型后,评分者偏差显著降低,尤其在初始表现出高偏差或低偏差的学生中更为明显。
- 该模型可用于以最大化预期准确性为目标,智能分配评分者给作业,从而优化整体评分流程。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。