Skip to main content
QUICK REVIEW

[논문 리뷰] AI, write an essay for me: A large-scale comparison of human-written versus ChatGPT-generated essays

Steffen Herbold, Annette Hautli-Janisz|arXiv (Cornell University)|2023. 04. 24.
Artificial Intelligence in Healthcare and Education인용 수 17
한 줄 요약

본 연구는 인간이 작성한 주장 에세이와 ChatGPT 생성 에세이를 체계적으로 비교하고, ChatGPT(특히 GPT-4)가 인간보다 전반적 품질에서 우수하다고 판단되며, 모델 간에 뚜렷한 언어 패턴이 나타난다.

ABSTRACT

Background: Recently, ChatGPT and similar generative AI models have attracted hundreds of millions of users and become part of the public discourse. Many believe that such models will disrupt society and will result in a significant change in the education system and information generation in the future. So far, this belief is based on either colloquial evidence or benchmarks from the owners of the models -- both lack scientific rigour. Objective: Through a large-scale study comparing human-written versus ChatGPT-generated argumentative student essays, we systematically assess the quality of the AI-generated content. Methods: A large corpus of essays was rated using standard criteria by a large number of human experts (teachers). We augment the analysis with a consideration of the linguistic characteristics of the generated essays. Results: Our results demonstrate that ChatGPT generates essays that are rated higher for quality than human-written essays. The writing style of the AI models exhibits linguistic characteristics that are different from those of the human-written essays, e.g., it is characterized by fewer discourse and epistemic markers, but more nominalizations and greater lexical diversity. Conclusions: Our results clearly demonstrate that models like ChatGPT outperform humans in generating argumentative essays. Since the technology is readily available for anyone to use, educators must act immediately. We must re-invent homework and develop teaching concepts that utilize these AI models in the same way as math utilized the calculator: teach the general concepts first and then use AI tools to free up time for other learning objectives.

연구 동기 및 목표

  • 대규모 전문가 평가자(교사) 풀을 이용하여 AI 생성 주장 에세이와 인간이 작성한 에세이의 품질을 평가한다.
  • 두 가지 ChatGPT 버전(GPT-3.5 및 GPT-4) 전체에서 인간 및 AI 생성 에세이 간의 언어적 차이를 특성화한다.
  • 신뢰도 검사와언어 특징 상관관계를 포함한 에세이 품질에 대한 통계적으로 엄밀한 분석을 제공한다.

제안 방법

  • 온라인 포럼에서 90개 주제에 대한 학생 에세이(인간 작성) 대규모 코퍼스를 수집한다.
  • 같은 주제에 대해 ~200단어짜리 에세이를 생성하도록 기본 제로샷 프롬프트로 ChatGPT-3 및 ChatGPT-4를 지시한다.
  • 108명의 교사가 7가지 기준에 대해 270편의 에세이에서 658개의 평점을 7점 Likert 척도로 평가하고 평가자 간 일치도를 계산한다.
  • 어휘 다양성, 구문 복잡성, 명사화, 조동사, epistemic markers, 담화 표시자에 대한 계산적 언어 분석을 수행한다.
  • 다중 비교에 대해 Holm-Bonferroni 보정을 적용한 Wilcoxon 부호순위 검정을 사용하고 효과 크기로 Cohen’s d를 보고하며 부트스트랩 기반 신뢰구간을 제공한다.
  • 이용 가능한 재현 패키지로 분석을 재현한다.

실험 결과

연구 질문

  • RQ1RQ1: GPT-3 및 GPT-4 기반의 ChatGPT가 주장하는 학생 에세이를 쓰는 데 얼마나 잘 하는가?
  • RQ2RQ2: AI가 생성한 에세이는 인간이 작성한 에세이와 어떻게 비교되는가?
  • RQ3RQ3: 인간과 AI 생성 콘텐츠의 특징인 언어적 수단은 무엇인가?

주요 결과

  • ChatGPT가 생성한 에세이는 모든 기준에서 인간이 작성한 에세이보다 품질이 높은 평가를 받고 있으며, GPT-4가 GPT-3.5를 능가한다.
  • GPT-4는 논리적 구조, 언어 복잡성, 어휘 풍부성, 텍스트 연결성 측면에서 GPT-3.5보다 더 높은 성과를 보인다.
  • 인간은 더 많은 조동사와 epistemic markers를 사용하고, GPT 모델은 더 많은 nominalisations를 사용하며 문장 복잡성이 더 크다.
  • 언어적 다양성은 시간이 지남에 따라 향상되며, GPT-4가 인간보다 더 높은 다양성을 보이는 반면, GPT-3.5는 인간보다 다양성에서 뒤처진다.
  • GPT-4와 GPT-3.5 간의 차이는 논리, 어휘 연결 및 복잡성에서 유의하며, GPT-4에서 광범위한 개선을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.