[論文レビュー] GPTZero: Robust Detection of LLM-Generated Texts
GPTZero は、文レベルの粒度と頑健性を備えた、Human、AI、Mixed を分類する階層的・多タスク検出器を導入します。
While historical considerations surrounding text authenticity revolved primarily around plagiarism, the advent of large language models (LLMs) has introduced a new challenge: distinguishing human-authored from AI-generated text. This shift raises significant concerns, including the undermining of skill evaluations, the mass-production of low-quality content, and the proliferation of misinformation. Addressing these issues, we introduce GPTZero a state-of-the-art industrial AI detection solution, offering reliable discernment between human and LLM-generated text. Our key contributions include: introducing a hierarchical, multi-task architecture enabling a flexible taxonomy of human and AI texts, demonstrating state-of-the-art accuracy on a variety of domains with granular predictions, and achieving superior robustness to adversarial attacks and paraphrasing via multi-tiered automated red teaming. GPTZero offers accurate and explainable detection, and educates users on its responsible use, ensuring fair and transparent assessment of text.
研究の動機と目的
- 階層的で多タスクな検出器を開発し、Human、AI、Mixed テキストを細粒度で区別する。
- 多層的なレッドチーミングにより、対向的攻撃やパラフレージングへの頑健性を高める。
- ドメインと言語を跨ぐ最先端の精度を達成し、説明可能な予測を提供する。
提案手法
- AI 検出を三値階層分類として捉え、トップレベルは Human、AI、Mixed(L0)、より細かな AI サブカテゴリー(L1)として Pure AI、Polished、AI Paraphrased などを設定する。
- 文書レベルのクロスエントロピーと文レベルのバイナリ交差エントロピーを組み合わせたマルチタスク目的を学習し、1 回のフォワードパスで文ごとの予測を可能にする。
- 長文には前処理、窓付き推論、予測を整合させ誤検知を減らす後処理のリマッピングを適用する。
- Deep Scan を用いて文ごとの影響度スコアを計算し、文書レベルの予測を文へ帰属付けする。
- パラフレージングプロンプト、パラフレーサモデル、ブラックボックス/ホワイトボックス攻撃を含む多層的なレッドチーミングの対向頑健性戦略を採用する。
- 抽象、エッセイ、レビューなどのドメインと言語を横断するオープン/クローズドソース検出器とベンチマークを実施する。
実験結果
リサーチクエスチョン
- RQ1階層的で多タスクなアーキテクチャは、人間-AI テキスト混在に対してより細粒度で説明可能な検出を提供できるか?
- RQ2対向訓練とレッドチーミングは、ドメインと言語を跨ぐパラフレージングおよび攻撃ベクトルへの頑健性にどのように影響するか?
- RQ3多様なドメインと多言語データセットにおける、オープン/クローズドソースのベースラインとの性能比較はどうか?
主な発見
| Detector | Abstracts AUC | Abstracts Accuracy | Abstracts Recall | Creative Writing AUC | Creative Writing Accuracy | Creative Writing Recall | Essays AUC | Essays Accuracy | Essays Recall |
|---|---|---|---|---|---|---|---|---|---|
| HC3 | 64.5 | 52.55 | 6.1 | 49.3 | 49.6 | 0.0 | 25.6 | 49.6 | 0.0 |
| Radar | 15.8 | 49.5 | 0.0 | 56.9 | 49.5 | 0.0 | 51.8 | 51.1 | 3.3 |
| FastDetectGPT | 52.6 | 51.6 | 4.4 | 73.8 | 60.3 | 21.6 | 72.8 | 64.4 | 33.0 |
| Binoculars | 40.0 | 49.5 | 0.0 | 82.4 | 60.7 | 22.4 | 83.5 | 70.5 | 41.9 |
| Originality (lite-102) | 99.4 | 96.5 | 95.1 | 98.9 | 95.8 | 92.1 | 99.9 | 99.5 | 99.2 |
| Pangram (3.1) | 92.8 | 93.6 | 87.2 | 96.1 | 98.0 | 96.0 | 99.9 | 99.8 | 99.8 |
| GPTZero (4.1b) | 99.9 | 99.4 | 99.2 | 99.9 | 98.7 | 97.4 | 99.9 | 99.8 | 99.7 |
- GPTZero は、複数のドメインと言語で、いくつかのベースラインと比較して最先端の性能を達成。
- インデームインメトリクスは、 abstracts、reviews、product content などのドメインで、AUC および Recall が高く、誤検知率は 1% 未満。
- 多言語評価では、GPTZero が 24 言語で 99.9 の AUC および 98.8 の accuracy を達成。
- GPTZero は AI バイパサー・データセットでの Recall >97% を維持し、パラフレージングとレッドチーム攻撃に対する頑健性を示す。
- Polished テキスト検出は実現可能で、定義された Polished の概念と類似度閾値で整合。
- Deep Scan は文レベルの帰属付けを提供し、どの文が AI 予測を駆動しているかを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。