[论文解读] Can ChatGPT and Bard Generate Aligned Assessment Items? A Reliability Analysis against Human Performance
本文评估 ChatGPT 和 Bard 在评估写作提示的复杂性时是否与人类评估者保持一致,使用 ICC 作为可靠性度量,并发现相对于人类金标准的互评一致性较低。
ChatGPT and Bard are AI chatbots based on Large Language Models (LLM) that are slated to promise different applications in diverse areas. In education, these AI technologies have been tested for applications in assessment and teaching. In assessment, AI has long been used in automated essay scoring and automated item generation. One psychometric property that these tools must have to assist or replace humans in assessment is high reliability in terms of agreement between AI scores and human raters. In this paper, we measure the reliability of OpenAI ChatGP and Google Bard LLMs tools against experienced and trained humans in perceiving and rating the complexity of writing prompts. Intraclass correlation (ICC) as a performance metric showed that the inter-reliability of both the OpenAI ChatGPT and the Google Bard were low against the gold standard of human ratings.
研究动机与目标
- 推动研究教育中 AI 生成的评估项质量。
- 研究 AI 工具(ChatGPT 和 Bard)对经验丰富的人类评审员的可靠性。
- 评估在人类在感知和评估写作提示复杂性方面与人类表现的一致性。
提出的方法
- 使用 Intraclass Correlation Coefficient (ICC) 作为主要可靠性度量。
- 将 OpenAI ChatGPT 和 Google Bard 与被视为金标准的人类评分进行比较。
- 让有经验且经过培训的人类评审员评估写作提示的复杂性。
- 分析 AI 工具相对于人类共识的表现以确定可靠性。
实验结果
研究问题
- RQ1在评判提示复杂性时,ChatGPT 和 Bard 是否能实现与人类评分高度一致的 ICC?
- RQ2ChatGPT 和 Bard 的 ICC 值与人类金标准相比如何?
- RQ3生成的 AI 评估是否足够可靠,能在此任务中帮助或替代人类评审员?
主要发现
- 基于 ICC 的对 ChatGPT 和 Bard 的可靠性相对于人类评分很低。
- 本研究将人类评分作为提示复杂性评估的金标准。
- 结果表明在此情境下,这些大型语言模型在生成对齐评估项方面的可靠性有限。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。