[论文解读] GPT-Sentinel: Distinguishing Human and ChatGPT Generated Content
GPT-Sentinel 提供 OpenGPTText 和两个分类器(RoBERTa-Sentinel 与 T5-Sentinel),能够在测试数据上以超过 97% 的准确率区分 ChatGPT 生成文本与人类撰写文本,并提供可解释性分析。
This paper presents a novel approach for detecting ChatGPT-generated vs. human-written text using language models. To this end, we first collected and released a pre-processed dataset named OpenGPTText, which consists of rephrased content generated using ChatGPT. We then designed, implemented, and trained two different models for text classification, using Robustly Optimized BERT Pretraining Approach (RoBERTa) and Text-to-Text Transfer Transformer (T5), respectively. Our models achieved remarkable results, with an accuracy of over 97% on the test dataset, as evaluated through various metrics. Furthermore, we conducted an interpretability study to showcase our model's ability to extract and differentiate key features between human-written and ChatGPT-generated text. Our findings provide important insights into the effective use of language models to detect generated text.
研究动机与目标
- 创建一个数据集(OpenGPTText),来自 OpenWebText 的 ChatGPT 改写文本,作为检测基准。
- 开发并比较两个微调后的分类器(RoBERTa-Sentinel 和 T5-Sentinel),用于人类文本与 ChatGPT 文本的二分类。
- 在多种指标和数据集上评估性能,并调查模型对决策的可解释性。
提出的方法
- 在冻结的 RoBERTa 主干上,用 MLP 分类器作为 RoBERTa-Sentinel 的顶部进行微调。
- 将 T5 微调为将任务视为序列到序列分类问题(输出 'positive' 或 'negative')。
- 在训练过程中使用 512-token 截断、填充和梯度累积来管理内存。
- 使用 F1、ROC/DET、AUC,以及在 OpenGPTText-Final、OpenGPTText 和 GPT2-Output 数据集上的模型置信度分数进行评估。
- 通过隐藏状态的 PCA 与集成梯度进行可解释性分析,以识别标记贡献。
实验结果
研究问题
- RQ1微调后的 RoBERTa 和 T5 模型是否能够在 OpenGPTText 派生数据上可靠地区分 ChatGPT 生成文本与人类撰写文本?
- RQ2模型在经过清理与原数据集,以及在 GPT-2/GPT-3.5 风格输出之间的迁移性能如何?
- RQ3哪些特征或标记最影响检测器的预测,模型的决策有多大可解释性?
主要发现
| Model | OpenGPTText-Final F1 | OpenGPTText-Final FPR | OpenGPTText-Final FNR | OpenGPTText F1 | OpenGPTText FPR | OpenGPTText FNR | GPT2-Output F1 | GPT2-Output FPR | GPT2-Output FNR |
|---|---|---|---|---|---|---|---|---|---|
| T5-Sentinel | 0.98 | 2.8% | 1.3% | 0.98 | 3.5% | 1.3% | 0.06 | 5.9% | 96.7% |
| RoBERTa-Sentinel | 0.94 | 9.0% | 3.2% | 0.89 | 21.6% | 1.3% | 0.16 | 17.2% | 89.6% |
| ZeroGPT | 0.43 | 26.3% | 65.0% | 0.40 | 16.5% | 71.3% | 0.14 | 23.4% | 90.5% |
| OpenAI-Detector | 0.32 | 4.9% | 79.8% | 0.26 | 1.6% | 85.2% | 0.66 | 13.6% | 44.0% |
| GPT2-Detector | 0.23 | 2.8% | 86.8% | 0.22 | 4.1% | 87.2% | 0.93 | 6.4% | 7.4% |
- T5-Sentinel 在 OpenGPTText-Final 与 OpenGPTText 上几乎完美的性能(F1 约为 0.98),且假阳性/假阴性很低,而 GPT2-Output 对大多数基线仍具挑战。
- RoBERTa-Sentinel 也在 OpenGPTText-Final/OpenGPTText 上表现良好,但在 GPT2-Output 上的 FNR 相比 T5-Sentinel 更高。
- 在各数据集上,AUC 对 T5-Sentinel 最高(OpenGPTText-Final 为 0.993),RoBERTa-Sentinel 为 0.986(OpenGPTText-Final)。
- ZeroGPT、OpenAI-Detector 与 GPT2-Detector 基线在基于 OpenGPTText 的任务上通常表现不及本文提出的 Sentinels。
- 置信度分数表明 T5-Sentinel 在 OpenGPTText 数据上提供的预测比 RoBERTa-Sentinel 更可靠。
- PCA 与集成梯度揭示的模型识别的簇和标记级贡献与 GPT 类特征一致。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。