[論文レビュー] DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection
DPIC は prompt-derived features を intrinsic text traits から分離し、Siamese ネットワークを用いて元のテキストと GPT 生成の再回答版を比較することで機械生成テキストを検出します。
Large language models (LLMs) have the potential to generate texts that pose risks of misuse, such as plagiarism, planting fake reviews on e-commerce platforms, or creating inflammatory false tweets. Consequently, detecting whether a text is generated by LLMs has become increasingly important. Existing high-quality detection methods usually require access to the interior of the model to extract the intrinsic characteristics. However, since we do not have access to the interior of the black-box model, we must resort to surrogate models, which impacts detection quality. In order to achieve high-quality detection of black-box models, we would like to extract deep intrinsic characteristics of the black-box model generated texts. We view the generation process as a coupled process of prompt and intrinsic characteristics of the generative model. Based on this insight, we propose to decouple prompt and intrinsic characteristics (DPIC) for LLM-generated text detection method. Specifically, given a candidate text, DPIC employs an auxiliary LLM to reconstruct the prompt corresponding to the candidate text, then uses the prompt to regenerate text by the auxiliary LLM, which makes the candidate text and the regenerated text align with their prompts, respectively. Then, the similarity between the candidate text and the regenerated text is used as a detection feature, thus eliminating the prompt in the detection process, which allows the detector to focus on the intrinsic characteristics of the generative model. Compared to the baselines, DPIC has achieved an average improvement of 6.76\% and 2.91\% in detecting texts from different domains generated by GPT4 and Claude3, respectively.
研究の動機と目的
- 訓練ドメインを超えた機械生成テキストの頑健な検出を動機づける。
- プロンプト効果と intrinsic テキスト特性を分離する概念を導入する。
- 生成テキストの継承性を露呈するためのGPT駆動の再回答生成メカニズムを提案する。
- 検出のためのSiamese埋め込みベースの類似モジュールと分類器を開発する。
- 現実世界の使用を反映するよう、摂動と攻撃に対する頑健性を評価する。
提案手法
- GPT 遺伝的継承を定義する: LLMの出力は訓練データとプロンプトによって形作られる。
- 元のテキストを要約させ、再回答させるようGPTモデルにプロンプトを与えて再回答テキストを作成する。
- Siameseネットワークを用いて高次元のセマンティック埋め込みを計算し、コサイン類似度を測定する。
- 埋め込みと類似度を組み合わせて機械生成テキストを予測する分類器を構築する。
- HC3で訓練し、Wiki、CCNews、CovidCM、ACLAbsデータセットで一般化を評価する。
- PPLベースの検出器、DetectGPT、およびRoBERTaベースの検出器と比較し、再翻訳やポリッシング攻撃への頑健性を評価する。
実験結果
リサーチクエスチョン
- RQ1GPT生成テキストは、元のテキストとGPT成した再回答との類似性を活用して検出できるか?
- RQ2高次元のセマンティック埋め込みを活用することで検出の領域横断的一般化は改善されるか?
- RQ3このアプローチは一般的なテキスト摂動や適応攻撃に対してどれくらい頑健か?
- RQ4GPT-Pat は多様なデータセットにおける最先端検出器とどう比較されるか?
主な発見
| データセット | P_acc | P_prec | P_F1 | D_acc | D_prec | D_F1 | R_acc | R_prec | R_F1 | G_acc | G_prec | G_F1 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| HC3 | 0.9344 | 0.8140 | 0.9943 | 0.9989 | 0.9519 | 0.8036 | 0.9936 | 0.9984 | 0.9341 | 0.8171 | 0.9944 | 0.9989 |
| Wiki | 0.8547 | 0.7155 | 0.8843 | 0.9532 | 0.8721 | 0.7181 | 0.8152 | 0.9348 | 0.8512 | 0.7138 | 0.8958 | 0.9541 |
| CCNews | 0.7156 | 0.7650 | 0.7011 | 0.9337 | 0.6825 | 0.7477 | 0.6304 | 0.9670 | 0.7393 | 0.7729 | 0.7648 | 0.9313 |
| CovidCM | 0.8353 | 0.7192 | 0.9676 | 0.9676 | 0.8758 | 0.7286 | 0.9634 | 0.9903 | 0.8260 | 0.7133 | 0.9678 | 0.9669 |
| ACLAbs | 0.7050 | 0.8859 | 0.8745 | 0.8983 | 0.9692 | 0.9000 | 1.0000 | 1.0000 | 0.5915 | 0.8839 | 0.8571 | 0.8872 |
- 4つの一般化データセット(Wiki、CCNews、CovidCM、ACLAbs)における平均精度は0.9457に達し、RoBERTaベースの検出器を平均で12.34%上回る。
- GPT-Patは複数のデータセットでより高い精度を達成(例:CCNewsの精度0.9670)し、偽陽性を低減する。
- 類似度と埋め込み特徴の両方を用いるSiamese+埋め込み分類器が、評価したアーキテクチャの中で最良の性能を示した。
- 適応攻撃(再翻訳および部分的なポリッシング)はRoBERTaをGPT-Patよりも劣化させるため、実践的にはGPT-Patの方が頑健性が高いことを示す。
- GPT-PatはHC3で最先端の性能を維持し、ドメイン外データへの一般化にも優れている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。