[論文レビュー] Evaluation of ChatGPT Feedback on ELL Writers' Coherence and Cohesion
この研究は、ELLエッセイの一貫性と結束性に対するChatGPT生成のフィードバックを評価し、タスク特化の訓練がない場合、フィードバックはほとんど抽象的で時には不正確であるが、いくつかのプロンプトの変種は人間の採点と強く整合することを示している。
Since its launch in November 2022, ChatGPT has had a transformative effect on education where students are using it to help with homework assignments and teachers are actively employing it in their teaching practices. This includes using ChatGPT as a tool for writing teachers to grade and generate feedback on students' essays. In this study, we evaluated the quality of the feedback generated by ChatGPT regarding the coherence and cohesion of the essays written by English Language Learners (ELLs) students. We selected 50 argumentative essays and generated feedback on coherence and cohesion using the ELLIPSE rubric. During the feedback evaluation, we used a two-step approach: first, each sentence in the feedback was classified into subtypes based on its function (e.g., positive reinforcement, problem statement). Next, we evaluated its accuracy and usability according to these types. Both the analysis of feedback types and the evaluation of accuracy and usability revealed that most feedback sentences were highly abstract and generic, failing to provide concrete suggestions for improvement. The accuracy in detecting major problems, such as repetitive ideas and the inaccurate use of cohesive devices, depended on superficial linguistic features and was often incorrect. In conclusion, ChatGPT, without specific training for the feedback generation task, does not offer effective feedback on ELL students' coherence and cohesion.
研究の動機と目的
- コヒーレンス/結束フィードバックの正確性と実用性を評価する方法を評価する。
- タスク特化の調整なしに、ChatGPTがELL学習者に対して正確で有用なフィードバックを提供できるかを判断する。
- ChatGPTフィードバックの言語タイプと有用性を特徴づける。
- ELLIPSE結束性評価基準を用いて、人間専門家のフィードバックとChatGPTフィードバックを標準化された評価基準で比較する。
- ELL環境におけるChatGPTベースのフィードバックの展開コストと実用性を分析する。
提案手法
- 機能別に各フィードバック文を二段階で分析する(例:肯定的強化、問題文、明示的な例、間接的提案)。
- データセットの50件の高等学校卒業レベルのELLエッセイからフィードバックを生成するためにELLIPSE結束性評価基準を使用する。
- ルーブリックタイプへのフィードバック文のマッピングと人間の判断との比較による正確性の細粒度評価。
- ChatGPTフィードバックを専門家フィードバックと4つの例文で総合的に比較する。
- 人間のジャッジとのスコア一致を評価するためのGPT-4プロンプトの実験(デフォルトおよび個別化)とkappa、ピアソン相関。
- 異なるプロンプト設定でのAPI使用コストの分析。

実験結果
リサーチクエスチョン
- RQ1RQ1: 一貫性/結束フィードバックの正確性と実用性を評価するにはどのようなアプローチがあるか。
- RQ2RQ2: タスク特化のプロンプト調整なしで、ELL学生に対して正確で有用な一貫性/結束フィードバックをChatGPTは提供できるか。
- RQ3RQ3: プロンプト設計(デフォルト vs.個別化)は、人間のスコアとの整合性とフィードバックの有用性にどのように影響するか。
主な発見
- ほとんどのフィードバック文は抽象的で一般的で、具体的な改善提案に欠けていた。
- 主要な問題(例:反復的なアイデア、不適切な結束表現の使用)を検出する正確性は表面的な言語的特徴に依存しており、しばしば誤っていた。
- プロンプト設計はスコア整合性に影響を及ぼし、個別化プロンプトはデフォルトプロンプトよりも正確/隣接一致の度合いと人間のスコアとのピアソン相関が高かった。
- サンプルエッセイを含むプロンプトはスコアリング性能を低下させ、コストを増大させた。
- 平均フィードバック長は4.1文(約62語)、エッセイあたり3–6文であり、長さと結束スコアの間には強い関連は見られなかった。
- 明示的な例は一般的で(エッセイあたり平均約1.21)、肯定的強化は低頻度であり、低熟練度のエッセイにはしばしば有用性が低かった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。