[論文レビュー] DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of GPT-Generated Text
DNA-GPT は、入力を切り詰め、LLM で継続を再生成し、n-gram または確率の乖離を分析することで、GPT生成テキストと人間のテキストを区別する訓練不要のゼロショット検出器を導入します。ブラックボックスおよびホワイトボックス設定で最先端の結果を達成し、説明可能な証拠を提供します。
Large language models (LLMs) have notably enhanced the fluency and diversity of machine-generated text. However, this progress also presents a significant challenge in detecting the origin of a given text, and current research on detection methods lags behind the rapid evolution of LLMs. Conventional training-based methods have limitations in flexibility, particularly when adapting to new domains, and they often lack explanatory power. To address this gap, we propose a novel training-free detection strategy called Divergent N-Gram Analysis (DNA-GPT). Given a text, we first truncate it in the middle and then use only the preceding portion as input to the LLMs to regenerate the new remaining parts. By analyzing the differences between the original and new remaining parts through N-gram analysis in black-box or probability divergence in white-box, we unveil significant discrepancies between the distribution of machine-generated text and the distribution of human-written text. We conducted extensive experiments on the most advanced LLMs from OpenAI, including text-davinci-003, GPT-3.5-turbo, and GPT-4, as well as open-source models such as GPT-NeoX-20B and LLaMa-13B. Results show that our zero-shot approach exhibits state-of-the-art performance in distinguishing between human and GPT-generated text on four English and one German dataset, outperforming OpenAI's own classifier, which is trained on millions of text. Additionally, our methods provide reasonable explanations and evidence to support our claim, which is a unique feature of explainable detection. Our method is also robust under the revised text attack and can additionally solve model sourcing. Codes are available at https://github.com/Xianjun-Yang/DNA-GPT.
研究の動機と目的
- LLM が進化するにつれて、柔軟で説明可能な AI が生成するテキスト検出の必要性を喚起する。
- 前置きテキストに条件付けられた機械と人間の継続を対比させる訓練不要の検出フレームワーク(DNA-GPT)を提案する。
- 説明可能な証拠を伴うブラックボックスおよびホワイトボックス検出メカニズムを提供する。
- 複数のデータセットで OpenAI モデルとオープンソース LLM に対してアプローチを検証する。
- 改訂テキスト攻撃への頑健性を示し、モデルソーシングを可能にする。
提案手法
- 入力テキストを比率 gamma で切り詰めて X と Y0(残り)を形成する。
- ターゲット LLM を用いて X から K 個の継続 Y1,...,YK を再生成する。
- ブラックボックスでは {Yk} と Y0 の乖離に基づいてスコアを计算(BScore)、ホワイトボックスでは WScore。
- ブラックボックスでは Yk と Y0 の n-gram 重複に、重み付け関数 f(n) を用いる(f(n)=n log n; n0=4, N=25)。
- ホワイトボックスでは p(Y0|X) / p(Yk|X) の対数比を用いる。
- 再生成を跨ぐ重なり n-gram による証拠を提供する。
実験結果
リサーチクエスチョン
- RQ1訓練不要・ゼロショット検出器が、複数のモデルとドメインに跨って GPT 生成テキストと人間テキストを信頼性高く識別できるか?
- RQ2前置テキストで条件付けることが、機械と人間の継続分布の乖離(Likelihood-Gap 仮説)を明らかにし、検出を可能にするか?
- RQ3データセットと言語を横断して、ブラックボックスとホワイトボックスのバリアントの性能と説明可能性はどう比較されるか?
- RQ4改訂テキスト攻撃への頑健性があり、モデルソーシングが可能か?
主な発見
- DNA-GPT は、訓練ベースのベースラインと比較して、複数のデータセットとモデルにおいて最先端の検出性能(AUROC、1% FPR における TPR が高い)を達成する。
- BScore を用いたブラックボックス検出と WScore を用いたホワイトボックス検出は、OpenAI モデル(GPT-3.5-turbo、GPT-4)およびオープンソースモデル(GPT-NeoX-20B、LLaMa-13B)で高性能を発揮する。
- 切り詰め比 gamma ≈ 0.5 および K を 5–20 の範囲にすると、設定を跨いで強く頑健な結果を得られる。
- この方法は、重なり合う n-gram による説明可能な証拠を提供し、解釈と潜在的な盗作評価を支援する。
- DNA-GPT は改訂テキスト攻撃への頑健性を示し、モデル間の再生成パターンを比較することでモデルソーシングを可能にする。
- 非英語の検出(ドイツ語)は英語と競合する水準で、言語特異的な訓練なしでゼロショット能力を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。