[논문 리뷰] Evaluation of ChatGPT Feedback on ELL Writers' Coherence and Cohesion
이 연구는 ELL 에세이에 대한 일관성과 응집력에 대해 ChatGPT가 생성한 피드백을 평가하며, 작업 특화 훈련이 없으면 피드백은 대체로 추상적이고 때로 부정확하지만, 일부 프롬프트 변형은 인간 채점과 강한 정렬을 보인다.
Since its launch in November 2022, ChatGPT has had a transformative effect on education where students are using it to help with homework assignments and teachers are actively employing it in their teaching practices. This includes using ChatGPT as a tool for writing teachers to grade and generate feedback on students' essays. In this study, we evaluated the quality of the feedback generated by ChatGPT regarding the coherence and cohesion of the essays written by English Language Learners (ELLs) students. We selected 50 argumentative essays and generated feedback on coherence and cohesion using the ELLIPSE rubric. During the feedback evaluation, we used a two-step approach: first, each sentence in the feedback was classified into subtypes based on its function (e.g., positive reinforcement, problem statement). Next, we evaluated its accuracy and usability according to these types. Both the analysis of feedback types and the evaluation of accuracy and usability revealed that most feedback sentences were highly abstract and generic, failing to provide concrete suggestions for improvement. The accuracy in detecting major problems, such as repetitive ideas and the inaccurate use of cohesive devices, depended on superficial linguistic features and was often incorrect. In conclusion, ChatGPT, without specific training for the feedback generation task, does not offer effective feedback on ELL students' coherence and cohesion.
연구 동기 및 목표
- 일관성/응집력 피드백의 정확성과 사용성을 평가하는 방법을 평가한다.
- 작업 특성 튜닝 없이도 ChatGPT가 ELL 학습자에게 정확하고 유용한 피드백을 제공할 수 있는지 판단한다.
- ChatGPT 피드백의 언어적 유형과 유용성을 특성화한다.
- 표준화된 루브릭(ELLIPSE 응집 루브릭)을 사용하여 ChatGPT 피드백과 인간 전문가 피드백을 비교한다.
- ELL 맥락에서 ChatGPT 기반 피드백의 배포 비용과 실용성을 분석한다.
제안 방법
- 각 피드백 문장을 기능별로 이중 단계 분석(예: 긍정적 강화, 문제 제기, 명시적 예시, 간접 제안).
- 데이터셋의 50편의 12학년 ELL 에세이에 대해 ELLIPSE 응집 루브릭을 사용하여 피드백을 생성한다.
- 피드백 문장을 루브릭 유형에 매핑하고 인간 판단과 비교하여 정확성을 세밀하게 평가한다.
- 네 편의 예시 에세이에 대해 ChatGPT 피드백을 전문가 피드백과 전체적으로 비교한다.
- GPT-4 프롬프트(기본 및 개인화)로 점수 일치 여부를 평가하기 위한 실험(카파, 피어슨 상관)
- 다양한 프롬프트 구성에 대한 API 사용 비용 분석.

실험 결과
연구 질문
- RQ1RQ1: 일관성/응집력 피드백의 정확성과 사용성을 평가할 수 있는 방법은 무엇인가?
- RQ2RQ2: 작업 특화 프롬프트 튜닝 없이도 ChatGPT가 ELL 학생들에게 정확하고 유용한 일관성/응집력 피드백을 제공할 수 있는가?
- RQ3RQ3: 프롬프트 설계(기본 vs. 개인화)가 인간 점수와 피드백 유용성의 정렬에 어떤 영향을 미치는가?
주요 결과
- 대부분의 피드백 문장은 추상적이고 일반적이며 구체적 개선 제안을 결여했다.
- 주요 문제 탐지의 정확도(예: 아이디어의 반복, 부적절한 결합 장치)는 피상적인 언어 특징에 의존했고 종종 부정확했다.
- 프롬프트 설계가 채점 정렬에 영향을 미쳤다: 개인화 프롬프트가 기본 프롬프트보다 정확 일치/근접 일치 및 인간 점수와의 피어슨 상관계수에서 더 높았다.
- 샘플 에세이가 포함된 프롬프트는 채점 성능을 저하시켰고 비용을 증가시켰다.
- 평균 피드백 길이는 4.1문장(약 62단어)였고 에세이당 3–6문장으로 응집 점수와의 강한 연관성은 보이지 않았다.
- 명시적 예시가 흔했다( 평균 약 1.21개 에세이당); 긍정적 강화를 덜 자주 사용했고 저숙련 에세이에 대해 도움이 되지 않는 경우가 많았다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.