[論文レビュー] GPT-Sentinel: Distinguishing Human and ChatGPT Generated Content
GPT-Sentinel は OpenGPTText を用いた OpenGPTText データで、ChatGPT が生成したテキストと人間が書いたテキストを 97% 以上の精度で見分けることができる OpenGPTText と二つの分類器(RoBERTa-Sentinel と T5-Sentinel)を提示し、解釈性分析も提供します。
This paper presents a novel approach for detecting ChatGPT-generated vs. human-written text using language models. To this end, we first collected and released a pre-processed dataset named OpenGPTText, which consists of rephrased content generated using ChatGPT. We then designed, implemented, and trained two different models for text classification, using Robustly Optimized BERT Pretraining Approach (RoBERTa) and Text-to-Text Transfer Transformer (T5), respectively. Our models achieved remarkable results, with an accuracy of over 97% on the test dataset, as evaluated through various metrics. Furthermore, we conducted an interpretability study to showcase our model's ability to extract and differentiate key features between human-written and ChatGPT-generated text. Our findings provide important insights into the effective use of language models to detect generated text.
研究の動機と目的
- OpenWebText からの ChatGPT パラフレーズ文のデータセット(OpenGPTText)を検出のベンチマークとして作成する。
- 人間テキスト vs. ChatGPT テキストの Binary分類のために、2 つの微調整済み分類器(RoBERTa-Sentinel と T5-Sentinel)を開発・比較する。
- 複数の指標とデータセットでの性能を評価し、決定のモデル解釈性を検証する。
提案手法
- RoBERTa-Sentinel のために、凍結済みの RoBERTa 主幹に上部に MLP 分類器を搭載して微調整する。
- タスクをシーケンス・ツー・シーケンス分類問題として扱うよう T5 を微調整し(出力は 'positive' または 'negative')。
- トレーニング中のメモリ管理のため、512 トークンの切り捨てとパディング、勾配蓄積を使用する。
- OpenGPTText-Final、OpenGPTText、GPT2-Output データセットを横断して、F1、ROC/DET、AUC、モデル信頼度スコアを用いて評価する。
- 隠れ状態の PCA および Integrated Gradients を用いた解釈可能性分析を実施し、トークン寄与を特定する。
実験結果
リサーチクエスチョン
- RQ1Fine-tuned RoBERTa および T5 モデルは、OpenGPTText 派生データ上で ChatGPT 生成テキストと人間が書いたテキストを信頼性高く区別できるか。
- RQ2クレンジング済みデータセットと元データセット、および GPT-2/GPT-3.5 風出力間でモデルの性能はどのように移転するか。
- RQ3検出器の予測を最も推進する特徴量やトークンは何か、モデルの決定はどの程度解釈可能か。
主な発見
| モデル | OpenGPTText-Final F1 | OpenGPTText-Final FPR | OpenGPTText-Final FNR | OpenGPTText F1 | OpenGPTText FPR | OpenGPTText FNR | GPT2-Output F1 | GPT2-Output FPR | GPT2-Output FNR |
|---|---|---|---|---|---|---|---|---|---|
| T5-Sentinel | 0.98 | 2.8% | 1.3% | 0.98 | 3.5% | 1.3% | 0.06 | 5.9% | 96.7% |
| RoBERTa-Sentinel | 0.94 | 9.0% | 3.2% | 0.89 | 21.6% | 1.3% | 0.16 | 17.2% | 89.6% |
| ZeroGPT | 0.43 | 26.3% | 65.0% | 0.40 | 16.5% | 71.3% | 0.14 | 23.4% | 90.5% |
| OpenAI-Detector | 0.32 | 4.9% | 79.8% | 0.26 | 1.6% | 85.2% | 0.66 | 13.6% | 44.0% |
| GPT2-Detector | 0.23 | 2.8% | 86.8% | 0.22 | 4.1% | 87.2% | 0.93 | 6.4% | 7.4% |
- T5-Sentinel は OpenGPTText-Final および OpenGPTText でほぼ完璧な性能を達成(F1 は約 0.98)、非常に低い FPR/FNR、GPT2-Output は多くのベースラインにとって依然難しい。
- RoBERTa-Sentinel も OpenGPTText-Final/OpenGPTText で良好に機能するが、GPT2-Output では T5-Sentinel に比べて FNR が高い。
- データセットを横断して、AUC は T5-Sentinel が最も高く(OpenGPTText-Final で 0.993)、RoBERTa-Sentinel は 0.986(OpenGPTText-Final)。
- ZeroGPT、OpenAI-Detector、GPT2-Detector のベースラインは、OpenGPTText ベースのタスクで提案された Sentinel と比較して一般的に性能が劣る。
- 信頼度スコアは、OpenGPTText データ上で T5-Sentinel が RoBERTa-Sentinel よりもより信頼性の高い予測を提供することを示唆している。
- PCA および Integrated Gradients は、GPT ライクな特性と一致するモデルが識別したクラスタやトークンレベルの寄与を明らかにする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。