QUICK REVIEW

[논문 리뷰] The Conversational Exam: A Scalable Assessment Design for the AI Era

Barba Lorena A., Laura Stegner|arXiv (Cornell University)|2026. 01. 15.

Intelligent Tutoring Systems and Adaptive Learning인용 수 0

한 줄 요약

대화형 시험(conversational exam)을 도입하는, AI 시대에 타당성을 유지하기 위해 실제 연습과 감독을 결합한 확장 가능한 라이브 코딩 구두 평가가 구현되었으며, two days에 걸쳐 58명의 학생으로 시연되었습니다.

ABSTRACT

Traditional assessment methods collapse when students use generative AI to complete work without genuine engagement, creating an illusion of competence where they believe they're learning but aren't. This paper presents the conversational exam -- a scalable oral examination format that restores assessment validity by having students code live while explaining their reasoning. Drawing on human-computer interaction principles, we examined 58 students in small groups across just two days, demonstrating that oral exams can scale to typical class sizes. The format combines authentic practice (students work with documentation and supervised AI access) with inherent validity (real-time performance cannot be faked). We provide detailed implementation guidance to help instructors adapt this approach, offering a practical path forward when many educators feel paralyzed between banning AI entirely or accepting that valid assessment is impossible.

연구 동기 및 목표

AI 시대에 AI로 인한 표면적 작업에 대응하고 실제 학습을 보장하기 위한 평가 개혁의 필요성을 고취합니다.
진정성 및 타당성을 보존하는 확장 가능한 대화형 구두 시험 형식을 제안합니다.
도입을 돕기 위한 구체적 실행 청사진(물류, 문제 설계, 채점 포함)을 제공합니다.

제안 방법

진정성은 실제 작업 조건을 통한 제시, 행동 관리가 아닌 실시간 수행으로 타당성 확보, 그룹 기반 구두 시험을 통한 확장성의 3원칙 프레임워크를 개발합니다.
3단계 계층 구조의 문제 은행(층 1당 30문항)과 3단계 비계(레벨 1, 레벨 2, 옵션 레벨 3) 및 힌트와 상승 검사를 위한 의사 결정 트리 지원을 만듭니다.
세부 평가 표와 고정 채점 rubric(Technical Skills 1-4, Conceptual Understanding 1-4, Problem-Solving & Communication 1-4)을 사용하여 그룹 간 일관된 평가를 가능하게 합니다.
리더 강사, 공동 강사, TA로 구성된 3인 팀과 Zoom 기반 설정을 통해 화면 모니터링 및 AI 남용을 실시간으로 관리합니다.
샌드 시계로 시간 측정된 30분당 그룹 회전(5~6명)과 Level 1 및 Level 2 문제를 사용하고, 학생 성과에 따라 조정합니다.

실험 결과

연구 질문

RQ1생성 AI가 있는 상황에서도 그룹 기반의 대화형 구두 시험이 일반적인 수업 규모에 대해 확장 가능하면서도 타당한 평가를 제공할 수 있는가?
RQ2,

주요 결과

교실 평균은 두 차례 시험에서 약 80%였으며, 2일에 걸쳐 58명의 학생이 평가되었습니다.
10개의 30분 세션에서 다섯에서 여섯 명의 그룹 회전을 수행함으로써 구두 시험의 확장 가능한 형식이 입증되었습니다.
구조화된 문제 은행, 비계, 표준화된 채점 표로 신속하고 일관된 채점이 가능해 관찰자 피로를 줄였습니다.
허용 및 금지된 AI 사용 지침이 명확히 정의되어 감독 하의 맥락에서 AI를 의미 있게 활용할 수 있게 했습니다.
설정, 역할 분담, 시험 전 준비(보정, 일정 수립, 실습 세션)가 신뢰성과 속도 확보에 결정적이었습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.