[論文レビュー] Detecting LLM-Generated Text in Computing Education: A Comparative Study for ChatGPT Cases
この論文は、ChatGPT以前の学生提出とChatGPT生成提出を用いて、公開LLM生成テキスト検出ツール8件を実証的に比較し、正確性・偽陽性・頑健性を評価する。CopyLeaksを最も正確とし、GPTKitが偽陽性を避ける点で最良、GLTRが最も頑健。
Due to the recent improvements and wide availability of Large Language Models (LLMs), they have posed a serious threat to academic integrity in education. Modern LLM-generated text detectors attempt to combat the problem by offering educators with services to assess whether some text is LLM-generated. In this work, we have collected 124 submissions from computer science students before the creation of ChatGPT. We then generated 40 ChatGPT submissions. We used this data to evaluate eight publicly-available LLM-generated text detectors through the measures of accuracy, false positives, and resilience. The purpose of this work is to inform the community of what LLM-generated text detectors work and which do not, but also to provide insights for educators to better maintain academic integrity in their courses. Our results find that CopyLeaks is the most accurate LLM-generated text detector, GPTKit is the best LLM-generated text detector to reduce false positives, and GLTR is the most resilient LLM-generated text detector. We also express concerns over 52 false positives (of 114 human written submissions) generated by GPTZero. Finally, we note that all LLM-generated text detectors are less accurate with code, other languages (aside from English), and after the use of paraphrasing tools (like QuillBot). Modern detectors are still in need of improvements so that they can offer a full-proof solution to help maintain academic integrity. Further, their usability can be improved by facilitating a smooth API integration, providing clear documentation of their features and the understandability of their model(s), and supporting more commonly used languages.
研究の動機と目的
- 計算機教育コンテンツに対する公開されているLLM生成テキスト検出ツールの有効性を評価する。
- 言い換えツールの前後で、実際の学生提出とChatGPT生成テキストを対象に検出器を評価する。
- 検出器の使いやすさ、API統合、言語サポートについて教育者向けの実践的ガイダンスを提供する。
提案手法
- データベース、ネットワーキング、論文作成コースから2016-2018年の164件の学生提出(124件は人間、30件はChatGPT生成、10件はChatGPT生成+QuillBot)を収集した。
- 比較のため40件のChatGPT提出を生成した。
- 2023年1月〜2月に公開された8つの検出器を特定し、収集データでテストした。
- 正確性、偽陽性、頑健性(QuillBotの言い換えを用いて)を測定した。
- 分析のため、検出器出力を比較可能な確率またはカテゴリに変換した。
- 閾値ベースと平均ベースの正確性指標で検出器を比較し、人間データとChatGPTデータをt検定で比較した。
実験結果
リサーチクエスチョン
- RQ1公開されているLLM生成テキスト検出器は計算機教育テキストに対してどの程度有効か?
- RQ2人間が書いた内容とChatGPT生成コンテンツで検出器は同様の性能を示すか?
- RQ3QuillBotのような言い換えツールに対して検出器はどの程度頑健か?
主な発見
| 検出器 | 人間データ(正確度) | ChatGPTデータ(正確度) |
|---|---|---|
| CopyLeaks | 99.12% | 95.00% |
| GPT2 Detector | 98.25% | 95.00% |
| CheckForAI | 98.25% | 95.00% |
| GLTR | 82.46% | 95.00% |
| GPTKit | 100.00% | 75.00% |
| OriginalityAI | 93.86% | 70.00% |
| AI Text Classifier | 94.74% | 60.00% |
| GPTZero | 54.39% | 45.00% |
- CopyLeaksは人間データで最も高い正確度を示し(99.12%)、ChatGPTデータでも最も高い正確度を示した(95.00%)。
- GPT2 DetectorとCheckForAIは、閾値を用いて人間データで98.25%、ChatGPTデータで95.00%の正確度を示した。
- GLTRは言い換えに対して高い頑健性を示し、人間データで82.46%、ChatGPTデータで95.00%の正確度だが、重み付き平均では全体的に弱かった。
- GPTKitは人間データで偽陽性ゼロだったが、他の場合にいくつか偽陽性を示した。
- GPTZeroは閾値を用いた場合、人間データで54.39%、ChatGPTデータで45.00%と最も低い性能だった。
- スペイン語データ全体では、CopyLeaksやGPT2 Detectorのような検出器が英語の結果とは異なる傾向を示し、結果が異なる場合がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。