[논문 리뷰] Game of Tones: Faculty detection of GPT-4 generated content in university assessments
본 연구는 대학 평가에서 GPT-4 콘텐츠를 테스트하고 Turnitin AI 탐지를 통해 교수진의 탐지 능력을 평가하며, 탐지의 간극을 드러내고 평가 개혁을 제안한다.
This study explores the robustness of university assessments against the use of Open AI's Generative Pre-Trained Transformer 4 (GPT-4) generated content and evaluates the ability of academic staff to detect its use when supported by the Turnitin Artificial Intelligence (AI) detection tool. The research involved twenty-two GPT-4 generated submissions being created and included in the assessment process to be marked by fifteen different faculty members. The study reveals that although the detection tool identified 91% of the experimental submissions as containing some AI-generated content, the total detected content was only 54.8%. This suggests that the use of adversarial techniques regarding prompt engineering is an effective method in evading AI detection tools and highlights that improvements to AI detection software are needed. Using the Turnitin AI detect tool, faculty reported 54.5% of the experimental submissions to the academic misconduct process, suggesting the need for increased awareness and training into these tools. Genuine submissions received a mean score of 54.4, whereas AI-generated content scored 52.3, indicating the comparable performance of GPT-4 in real-life situations. Recommendations include adjusting assessment strategies to make them more resistant to the use of AI tools, using AI-inclusive assessment where possible, and providing comprehensive training programs for faculty and students. This research contributes to understanding the relationship between AI-generated content and academic assessment, urging further investigation to preserve academic integrity.
연구 동기 및 목표
- GPT-4 생성 콘텐츠에 대한 대학 평가의 견고성 평가.
- Turnitin AI 탐지 지원을 통한 교수진의 탐지 능력 평가.
- 탐지율과 학문적 정직성 지표에 미치는 영향을 정량화.
제안 방법
- GPT-4 제출물을 22개 생성하여 평가에 삽입한다.
- 15명의 교수진이 제출물을 채점하게 한다.
- Turnitin AI 탐지 도구를 사용하여 AI 생성 콘텐츠를 식별한다.
- 탐지된 콘텐츠를 실제 AI 콘텐츠와 비교하여 회피 여부를 평가한다.
- 제출 결과를 분석한다: 위법 신고 및 성적.
실험 결과
연구 질문
- RQ1실제 제출물에서 Turnitin의 AI 탐지가 GPT-4 콘텐츠를 식별하는 데 얼마나 효과적인가?
- RQ2대학 평가에서 적대적 프롬프트 엔지니어링이 AI 탐지 도구를 어느 정도까지 회피할 수 있는가?
- RQ3AI 생성 콘텐츠가 실제 평가 성적 및 위법 신고에 미치는 영향은 무엇인가?
주요 결과
- AI 탐지 도구가 실험용 AI 생성 제출물의 91%를 일부 AI 콘텐츠를 포함하는 것으로 식별했다.
- 탐지된 AI 콘텐츠의 총 비율은 54.8%로, 도구 경고에도 불구하고 상당한 회피를 시사한다.
- 교수진은 실험 제출물의 54.5%를 위법 절차로 회부했다.
- 실제 제출물은 평균 54.4를, AI 생성 콘텐츠는 평균 52.3를 보였으며, 성능 차이가 비슷함을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.