Skip to main content
QUICK REVIEW

[论文解读] HowkGPT: Investigating the Detection of ChatGPT-generated University Student Homework through Context-Aware Perplexity Analysis

Christoforos Vasilatos, Manaar Alam|arXiv (Cornell University)|May 26, 2023
Artificial Intelligence in Healthcare and Education被引用 10
一句话总结

HowkGPT 使用元数据驱动的困惑度阈值,这些阈值是用预训练的 GPT-2 模型计算的,用以区分 ChatGPT 生成的大学作业与学生撰写的作业,且类别特定的阈值提高了准确性。

ABSTRACT

As the use of Large Language Models (LLMs) in text generation tasks proliferates, concerns arise over their potential to compromise academic integrity. The education sector currently tussles with distinguishing student-authored homework assignments from AI-generated ones. This paper addresses the challenge by introducing HowkGPT, designed to identify homework assignments generated by AI. HowkGPT is built upon a dataset of academic assignments and accompanying metadata [17] and employs a pretrained LLM to compute perplexity scores for student-authored and ChatGPT-generated responses. These scores then assist in establishing a threshold for discerning the origin of a submitted assignment. Given the specificity and contextual nature of academic work, HowkGPT further refines its analysis by defining category-specific thresholds derived from the metadata, enhancing the precision of the detection. This study emphasizes the critical need for effective strategies to uphold academic integrity amidst the growing influence of LLMs and provides an approach to ensuring fair and accurate grading in educational institutions.

研究动机与目标

  • 通过区分学生撰写的作业与 AI 生成的提交,推动学术诚信。
  • 利用元数据丰富的数据集来改进基于困惑度的作业检测。
  • 证明类别特定的困惑度阈值优于单一、数据集范围内的阈值。
  • 提供一个公开可访问的网页工具,用于实时作业来源评估。

提出的方法

  • 在文本上计算困惑度,使用预训练的 GPT-2 模型,因为在研究中无法访问 GPT-3.5/4。
  • 使用滑动窗口方法累计标记级损失,并对其均值进行指数运算以获得文本困惑度。
  • 结合数据集元数据中的知识与认知过程类别,定义类别特定的阈值。
  • 通过 ROC/AUC 和 F1 指标在不同数据集风味下评估阈值,以选择最佳困惑度截断值。
  • 部署一个离线和在线网络应用工作流,用于阈值计算和起源分类。

实验结果

研究问题

  • RQ1困惑度是否能够在大学数据集中区分学生撰写的作业文本与 AI 生成的作业文本?
  • RQ2将基于元数据的文本分类引入是否能提升检测准确性,相对于单一阈值?
  • RQ3在不同题目类别和数据集风味下,最优的困惑度阈值是什么?

主要发现

  • 当使用类别特定阈值而非单一数据集范围内的阈值时,基于困惑度的检测准确性提高。
  • 数据集风味(如排除数学/代码内容)显著影响困惑度分布形状和阈值性能。
  • ROC/AUC 与 F1 分析会根据所选度量标准识别不同的最优阈值,反映精确度与召回之间的权衡。
  • 该研究开发了一个公开可访问的网络平台,可对提交物进行实时的基于困惑度的起源评估。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。