[论文解读] The Conversational Exam: A Scalable Assessment Design for the AI Era
引入对话式考试,一种可扩展的现场编码口试评估,将真实实践与监督结合,在 AI 时代保持有效性,已在两天内对58名学生进行演示。
Traditional assessment methods collapse when students use generative AI to complete work without genuine engagement, creating an illusion of competence where they believe they're learning but aren't. This paper presents the conversational exam -- a scalable oral examination format that restores assessment validity by having students code live while explaining their reasoning. Drawing on human-computer interaction principles, we examined 58 students in small groups across just two days, demonstrating that oral exams can scale to typical class sizes. The format combines authentic practice (students work with documentation and supervised AI access) with inherent validity (real-time performance cannot be faked). We provide detailed implementation guidance to help instructors adapt this approach, offering a practical path forward when many educators feel paralyzed between banning AI entirely or accepting that valid assessment is impossible.
研究动机与目标
- 在 AI 时代推动评估改革的必要性,以对抗 AI 支持的表层工作并确保真正的学习。
- 提出一个可扩展的对话式考试格式,保持真实性与有效性。
- 提供一个可操作的实现蓝图,包括后勤、题目设计与评分,以帮助 adoption。
提出的方法
- 构建三原则框架:通过真实工作条件实现真实性;通过现场表现而非监控行为实现有效性;通过基于小组的口试实现可扩展性。
- 创建两级题库(每级30道题)并结合三层支架(Level 1、Level 2、可选 Level 3)与用于提示和提升检查的决策树支持。
- 使用结构化观察、详细的评分表和固定评测表(Technical Skills 1-4, Conceptual Understanding 1-4, Problem-Solving & Communication 1-4)以实现跨小组的一致评估。
- 以三人团队(主讲教师、助讲教师、教学助理)组织后勤,采用 Zoom 设置实时代监控屏幕和 AI 误用。
- 实现每组 30 分钟轮转(五到六名学生)并设置 Level 1 和 Level 2 的题目,使用沙漏计时,并根据学生表现进行调整。
实验结果
研究问题
- RQ1在有生成式 AI 的存在下,基于群组的对话式口试是否能提供有效评估,同时对典型班级规模仍具可扩展性?
- RQ2实现此类考试所需的设计原则和后勤结构是什么,以实现可靠高效的执行?
- RQ3该方法是否能将真实能力与计算课程中的表浅或 AI 辅助表现区分开来?
主要发现
- 两轮考试的课堂平均约为 80%,共对 58 名学生在两天内进行评估。
- 通过在十个半小时的场次中进行五到六人小组轮换,演示了可扩展的口试格式。
- 结构化题库、支架化设计和标准化评分表实现了快速、稳定的评分并降低观察者疲劳。
- 清晰定义了允许与禁止使用 AI 的指南,使学生在监督环境中能与 AI 进行有意义的互动。
- 设置、角色分工与考前准备(校准、排程与练习)对实现可靠性与 pacing 至关重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。