QUICK REVIEW

[論文レビュー] Better by you, better than me, chatgpt3 as writing assistance in students essays

Željana Bašić, Ana Banovac|arXiv (Cornell University)|Feb 9, 2023

Artificial Intelligence in Healthcare and Education参考文献 16被引用数 36

ひとこと要約

研究は、ChatGPT-3をライティングアシスタントとして使用した場合と使用しない場合の学生エッセイの質を比較し、ツールによる改善は見られず、実験群でパフォーマンスが低下する兆候さえあることを示している。

ABSTRACT

Aim: To compare students' essay writing performance with or without employing ChatGPT-3 as a writing assistant tool. Materials and methods: Eighteen students participated in the study (nine in control and nine in the experimental group that used ChatGPT-3). We scored essay elements with grades (A-D) and corresponding numerical values (4-1). We compared essay scores to students' GPTs, writing time, authenticity, and content similarity. Results: Average grade was C for both groups; for control (2.39, SD=0.71) and for experimental (2.00, SD=0.73). None of the predictors affected essay scores: group (P=0.184), writing duration (P=0.669), module (P=0.388), and GPA (P=0.532). The text unauthenticity was slightly higher in the experimental group (11.87%, SD=13.45 to 9.96%, SD=9.81%), but the similarity among essays was generally low in the overall sample (the Jaccard similarity index ranging from 0 to 0.054). In the experimental group, AI classifier recognized more potential AI-generated texts. Conclusions: This study found no evidence that using GPT as a writing tool improves essay quality since the control group outperformed the experimental group in most parameters.

研究の動機と目的

ChatGPT-3をライティングアシスタントとして使用することで、学生のエッセイの品質が向上するかを評価する。
AI支援の有無で、執筆時間、真偽性、内容の類似性をグループ間で比較する。
AI生成テキストの検出可能性とエッセイの成績との関係を評価する。

提案手法

18名の学生を、コントロール群（ChatGPT-3なし）と実験群（ChatGPT-3あり）にランダム割り当てした。
エッセイの採点を、A〜Dの評価を数値（4〜1）に対応付けて実施。
グループ間でエッセイ成績、執筆時間、真偽性、内容の類似性を比較。
エッセイ間の内容の類似性をJaccard類似度指数で算出。
実験群のAI生成テキストの可能性を評価するためAIテキスト分類器を使用。

実験結果

リサーチクエスチョン

RQ1ChatGPT-3をライティングアシスタントとして使用すると、総合的なエッセイの成績は向上するか？
RQ2執筆時間はAI支援の有無によってエッセイの質にどのような影響を与えるか？
RQ3AI支援を受けた執筆は、学生のエッセイの真偽性と内容の類似性に影響を与えるか？
RQ4AI検出ツールは、学生のエッセイにおけるAI支援執筆を信頼性高く識別できるか？

主な発見

平均成績は両群ともCだった（コントロール2.39、SD=0.71；実験群2.00、SD=0.73）。
グループ、執筆時間、モジュール、GPAはエッセイの成績に有意な影響を与えなかった（P値：0.184、0.669、0.388、0.532）。
実験群ではテキストの非真正性がわずかに高かった（11.87%、SD=13.45）一方、対照群は9.96%、SD=9.81%。
Jaccard類似度指標は全体のサンプルで一般的に低い内容類似性を示した（0〜0.054）。
実験群ではAI分類器がより多くの潜在的なAI生成テキストを識別した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。