QUICK REVIEW

[論文レビュー] HowkGPT: Investigating the Detection of ChatGPT-generated University Student Homework through Context-Aware Perplexity Analysis

Christoforos Vasilatos, Manaar Alam|arXiv (Cornell University)|May 26, 2023

Artificial Intelligence in Healthcare and Education被引用数 10

ひとこと要約

HowkGPTは、事前学習済みGPT-2モデルを用いて計算されたメタデータ駆動のパープレキシティ閾値を用い、ChatGPT生成の大学の宿題と学生が書いた作品を区別し、カテゴリ別の閾値が精度を高める。

ABSTRACT

As the use of Large Language Models (LLMs) in text generation tasks proliferates, concerns arise over their potential to compromise academic integrity. The education sector currently tussles with distinguishing student-authored homework assignments from AI-generated ones. This paper addresses the challenge by introducing HowkGPT, designed to identify homework assignments generated by AI. HowkGPT is built upon a dataset of academic assignments and accompanying metadata [17] and employs a pretrained LLM to compute perplexity scores for student-authored and ChatGPT-generated responses. These scores then assist in establishing a threshold for discerning the origin of a submitted assignment. Given the specificity and contextual nature of academic work, HowkGPT further refines its analysis by defining category-specific thresholds derived from the metadata, enhancing the precision of the detection. This study emphasizes the critical need for effective strategies to uphold academic integrity amidst the growing influence of LLMs and provides an approach to ensuring fair and accurate grading in educational institutions.

研究の動機と目的

学生が作成した宿題とAI生成の提出物を区別することにより学術的誠実さを促進する。
メタデータが豊富なデータセットを活用して宿題タスクのパープレキシティベース検出を改良する。
カテゴリ別パープレキシティ閾値が単一のデータセット全体閾値より優れることを示す。
リアルタイムの宿題起源評価のための公開アクセス可能なウェブツールを提供する。

提案手法

本研究でGPT-3.5/4へアクセスできないため、事前学習済みGPT-2モデルを用いてテキストのパープレキシティを計算する。
トークンレベルの損失を蓄積する移動窓アプローチを使用し、それらの平均を指数化してテキストのパープレキシティを得る。
知識・認知過程カテゴリを含むデータセットのメタデータを組み込み、カテゴリ別閾値を定義する。
ROC/AUCとF1指標を用いて異なるデータセットの風味（フレーバー）間で閾値を評価し、最適なパープレキシティの閾値を選定する。
閾値計算と起源分類のためのオフラインおよびライブWebアプリケーションワークフローを展開する。）

実験結果

リサーチクエスチョン

RQ1パープレキシティは大学データセット内で学生が作成した宿題とAI生成のテキストを区別できるか？
RQ2メタデータベースのテキスト分類を組み込むことで、単一の閾値より検出精度が向上するか？
RQ3異なる質問カテゴリとデータセット風味ごとの最適なパープレキシティ閾値は何か？

主な発見

カテゴリ別閾値を用いると、単一のデータセット全体閾値を使用する場合よりパープレキシティベースの検出精度が向上する。
データセットの風味付け（例：数学・コード内容を除外）により、パープレキシティ分布の形状と閾値の性能に大きく影響する。
ROC/AUCとF1の分析は、選択した指標に応じて異なる最適閾値を特定し、精度と再現率のトレードオフを反映する。
本研究は、提出物のリアルタイムパープレキシティベース起源評価を実行する公開アクセス可能なウェブプラットフォームを開発する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。