[논문 리뷰] The Death of the Short-Form Physics Essay in the Coming AI Revolution
논문은 OpenAI의 GPT-3 기반 모델이 다섯 편의 300단어 물리학 에세이를 생성하고, Durham University 모듈에서 약 71%를 기록한다는 것을 보여주며, AI가 작성한 단편 에세이가 전통적 평가 방법을 위협한다는 것을 시사한다.
The latest AI language modules can produce original, high quality full short-form ($300$-word) Physics essays within seconds. These technologies such as ChatGPT and davinci-003 are freely available to anyone with an internet connection. In this work, we present evidence of AI generated short-form essays achieving first-class grades on an essay writing assessment from an accredited, current university Physics module. The assessment requires students answer five open-ended questions with a short, $300$-word essay each. Fifty AI answers were generated to create ten submissions that were independently marked by five separate markers. The AI generated submissions achieved an average mark of $71 \pm 2 \%$, in strong agreement with the current module average of $71 \pm 5 %$. A typical AI submission would therefore most-likely be awarded a First Class, the highest classification available at UK universities. Plagiarism detection software returned a plagiarism score between $2 \pm 1$% (Grammarly) and $7 \pm 2$% (TurnitIn). We argue that these results indicate that current AI MLPs represent a significant threat to the fidelity of short-form essays as an assessment method in Physics courses.
연구 동기 및 목표
- AI 텍스트 생성이 단편 물리학 에세스 평가의 정확성에 위협이 되는지에 대한 우려를 촉발한다.
- AI가 생성한 단편 에세스가 실제 대학 모듈에서 1등급 성과를 달성할 수 있는지 평가한다.
- AI가 생성한 에세스와 인간 제출물의 일관성과 탐지 가능성을 비교한다.
- 고등교육에서 평가 설계 및 완화 전략에 대한 시사점을 논의한다.
제안 방법
- 더럼 대학교의 Physics in Society 모듈에서 제시된 다섯 가지 개방형 물리학 문제(다섯 편의 300단어 에세이)를 평가의 기초로 사용한다.
- 질문을 바탕으로 prompts를 이용해 OpenAI davinci-003 플레이그라운드에서 AI가 작성한 10개 제출물(각 제출물당 다섯 문제)을 생성한다.
- 다섯 명의 독립 채점자가 AI 제출물을 채점하고, 모듈 평균과 비교하며 Grammarly 및 Turnitin의 표절 점수를 분석한다.
- AI 출력물의 예를 제시하고 담론적이고 독창적인 응답을 얻기 위한 프롬프트 설계에 대해 논의한다.
- 채점자 간 일치도와 AI가 미래에 튜터나 피드백 제공자로서 차지할 수 있는 역할을 평가한다.
실험 결과
연구 질문
- RQ1AI 언어 모델이 공인된 대학 평가에서 높은 점수를 받는 단편 물리학 에세이를 생성할 수 있는가?
- RQ2AI가 생성한 에세이와 인간 학생의 성과 간 평균 점수 및 채점 일관성 측면에서 어떤 차이가 있는가?
- RQ3표절 도구에 의해 AI가 작성한 에세이가 탐지될 수 있는가, 그리고 독창성 및 스타일 측면에서 어떤 특성을 갖는가?
- RQ4AI 역량이 고등교육의 평가 설계와 학술적 정직성에 어떤 시사점을 가지는가?
주요 결과
- 다섯 명의 채점자가 평가한 10개 AI 생성 제출물(각각 다섯 문제) 평균 71±2%를 기록했다.
- 이 AI 평균은 Physics in Society 모듈 평균(71±5%) 및 Durham 대학 2학년 물리 모듈 평균(72±3%)과 일치한다.
- AI 에세이는 채점자 간에 일관되게 채점되었으며, 채점자 평균은 73.0±1.6, 72.6±2.0, 69±2, 70±2, 70.6±1.9로 나타나 강한 채점자 간 합의를 시사한다.
- AI 표절 점수는 평균 2±1% (Grammarly) 및 7±2% (Turnitin)로, AI가 작성한 텍스트가 주어진 질문을 넘어서는 일반적인 대학 검사에 대해 충분히 원본으로 보일 수 있음을 시사한다.
- 결과는 현재의 AI 모델이 1등급 수준의 고품질 단편 물리학 에세이를 생성할 수 있으며, 단편 에세이가 평가 방법으로서의 타당성에 도전한다는 점을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.