Skip to main content
QUICK REVIEW

[論文レビュー] Empirical Study of Large Language Models as Automated Essay Scoring Tools in English Composition__Taking TOEFL Independent Writing Task for Example

Wei Xia, Shaoguang Mao|arXiv (Cornell University)|Jan 7, 2024
Edcuational Technology Systems被引用数 5
ひとこと要約

本論文は TOEFL Independent Writing Task の基準を用いて英作文の自動採点機としての ChatGPT を調査し、実用的な実行可能性を見出す一方で回帰効果を報告し、ドメインに根ざしたプロンプトの必要性を強調している。

ABSTRACT

Large language models have demonstrated exceptional capabilities in tasks involving natural language generation, reasoning, and comprehension. This study aims to construct prompts and comments grounded in the diverse scoring criteria delineated within the official TOEFL guide. The primary objective is to assess the capabilities and constraints of ChatGPT, a prominent representative of large language models, within the context of automated essay scoring. The prevailing methodologies for automated essay scoring involve the utilization of deep neural networks, statistical machine learning techniques, and fine-tuning pre-trained models. However, these techniques face challenges when applied to different contexts or subjects, primarily due to their substantial data requirements and limited adaptability to small sample sizes. In contrast, this study employs ChatGPT to conduct an automated evaluation of English essays, even with a small sample size, employing an experimental approach. The empirical findings indicate that ChatGPT can provide operational functionality for automated essay scoring, although the results exhibit a regression effect. It is imperative to underscore that the effective design and implementation of ChatGPT prompts necessitate a profound domain expertise and technical proficiency, as these prompts are subject to specific threshold criteria. Keywords: ChatGPT, Automated Essay Scoring, Prompt Learning, TOEFL Independent Writing Task

研究の動機と目的

  • TOEFL の基準内で大規模言語モデルを用いた英語の自動採点を促進する。
  • 小規模サンプルでの英作文の採点における ChatGPT の能力と制約を評価する。
  • TOEFL 採点基準に合わせたプロンプト設計が採点品質に与える影響を調査する。
  • 採点タスクのための効果的なプロンプト作成におけるドメイン専門知識の役割を強調する。

提案手法

  • 公式の TOEFL 採点基準に基づくプロンプトとコメントを構築する。
  • 小規模サンプルで英作文を自動的に評価するために ChatGPT を用いる。
  • 機能性を評価するために採点出力を分析し、回帰効果を特定する。
  • プロンプト設計には多大なドメイン知識と技術的能力が必要であると主張する。

実験結果

リサーチクエスチョン

  • RQ1ChatGPT は TOEFL Independent Writing Task の基準に合致した機能的な自動採点を提供できるか?
  • RQ2英作文の採点に ChatGPT を用いる際に観察される制約や回帰効果は何か?
  • RQ3この文脈でのプロンプト設計は自動採点の質と信頼性にどのように影響するか?
  • RQ4AEA タスクのための効果的なプロンプトを設計するにはどの程度のドメイン専門知識が必要か?

主な発見

  • ChatGPT は TOEFL 風の課題に対して自動エッセイ採点を実務的に実行できる。
  • このアプローチで観察される採点出力には回帰効果がある。
  • このタスクの効果的なプロンプト設計には相当なドメイン知識と技術的スキルが必要である。
  • 慎重なプロンプト構築により小規模サンプルの評価は実現可能だが、結果はプロンプト閾値に依存する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。