[論文レビュー] RADAR: Robust AI-Text Detection via Adversarial Learning
RADARは、対向的フレームワークでパラフレーズに対しても効果を維持する堅牢なAIテキスト検出器を作るため、パラフレーザーと検出器を共同で訓練する。
Recent advances in large language models (LLMs) and the intensifying popularity of ChatGPT-like applications have blurred the boundary of high-quality text generation between humans and machines. However, in addition to the anticipated revolutionary changes to our technology and society, the difficulty of distinguishing LLM-generated texts (AI-text) from human-generated texts poses new challenges of misuse and fairness, such as fake content generation, plagiarism, and false accusations of innocent writers. While existing works show that current AI-text detectors are not robust to LLM-based paraphrasing, this paper aims to bridge this gap by proposing a new framework called RADAR, which jointly trains a robust AI-text detector via adversarial learning. RADAR is based on adversarial training of a paraphraser and a detector. The paraphraser's goal is to generate realistic content to evade AI-text detection. RADAR uses the feedback from the detector to update the paraphraser, and vice versa. Evaluated with 8 different LLMs (Pythia, Dolly 2.0, Palmyra, Camel, GPT-J, Dolly 1.0, LLaMA, and Vicuna) across 4 datasets, experimental results show that RADAR significantly outperforms existing AI-text detection methods, especially when paraphrasing is in place. We also identify the strong transferability of RADAR from instruction-tuned LLMs to other LLMs, and evaluate the improved capability of RADAR via GPT-3.5-Turbo.
研究の動機と目的
- 増加するパラフレーズされた機械テキストの中で、堅牢なAIテキスト検出を促進する。
- 対立学習を通じて、RADARを用いてパラフレーザーと検出器を共同訓練することを提案する。
- 多様なLLMとデータセットにおけるRADARの堅牢性、移転性、性能を示す。
- 対立訓練による検出器の転移性とパラフレーザー品質の向上を探る。
提案手法
- ターゲットの凍結済みLLMを用いて、人間テキストデータからAIテキストを生成する。
- 検出を回避するためにAIテキストを書き換えるパラフレーサーG_sigmaを訓練し、エントロピーペナルティを用いたPPOを使用する。
- パラフレーズ出力を含む人間テキストとAIテキストを区別する検出器D_phiを訓練し、サンプル不均衡に対処するため再重み付けロジスティック損失を使用する。
- 検証セットのAUROCが安定するまで、PPO報酬とロジスティック損失を用いてパラフレーザーと検出器を逐次更新する。
- 見知らぬパラフレーザーを含むGPT-3.5-Turboを含む8つのLLMにわたり、4つのデータセットで検出器の性能を評価する。
- パラフレーズ有無のバランスをとるハイパーパラメータlambdaを最適化することを任意で行う。
実験結果
リサーチクエスチョン
- RQ1対抗的に訓練されたパラフレーザーがAIテキストの検出可能性を崩壊させ得るか、検出器がそのようなパラフレージングに耐えるよう訓練できるか。
- RQ2多様なLLMとデータセットにおけるRADARの性能はどうか、検出器は見知らぬモデルへの移植性はどの程度か。
- RQ3対立訓練は、元の検出性能を過度に損なうことなく、パラフレージングへの堅牢性を改善するか。
- RQ4LLM間での検出器の転移性に対する指示調整(instruction-tuning)の効果は何か。
- RQ5学習中に見られなかったパラフレーザー(未見のパラフレーザー)に対して、学習済み検出器は一般化できるか。
主な発見
| 評価スキーマ | Xsum | SQuAD | WP | TOFEL | 平均 |
|---|---|---|---|---|---|
| w/o Paraphraser - log p | 0.882 | 0.868 | 0.967 | 0.832 | 0.887 |
| w/o Paraphraser - rank | 0.722 | 0.752 | 0.814 | 0.731 | 0.755 |
| w/o Paraphraser - log rank | 0.902 | 0.893 | 0.975 | 0.847 | 0.904 |
| w/o Paraphraser - entropy | 0.536 | 0.521 | 0.296 | 0.534 | 0.472 |
| w/o Paraphraser - DetectGPT | 0.874 | 0.790 | 0.883 | 0.919 | 0.867 |
| w/o Paraphraser - OpenAI (RoBERTa) | 0.953 | 0.914 | 0.924 | 0.810 | 0.900 |
| w/o Paraphraser - RADAR | 0.934 | 0.825 | 0.847 | 0.820 | 0.856 |
| RADAR-Seen Paraphraser - log p | 0.230 | 0.156 | 0.275 | 0.130 | 0.198 |
| RADAR-Seen Paraphraser - rank | 0.334 | 0.282 | 0.357 | 0.163 | 0.284 |
| RADAR-Seen Paraphraser - log rank | 0.245 | 0.175 | 0.281 | 0.134 | 0.209 |
| RADAR-Seen Paraphraser - entropy | 0.796 | 0.845 | 0.763 | 0.876 | 0.820 |
| RADAR-Seen Paraphraser - DetectGPT | 0.191 | 0.105 | 0.117 | 0.177 | 0.159 |
| RADAR-Seen Paraphraser - OpenAI (RoBERTa) | 0.821 | 0.842 | 0.892 | 0.670 | 0.806 |
| RADAR-Seen Paraphraser - RADAR | 0.920 | 0.927 | 0.908 | 0.932 | 0.922 |
| RADAR-Unseen Paraphraser - log p | 0.266 | 0.343 | 0.641 | 0.438 | 0.422 |
| RADAR-Unseen Paraphraser - rank | 0.433 | 0.436 | 0.632 | 0.342 | 0.461 |
| RADAR-Unseen Paraphraser - log rank | 0.282 | 0.371 | 0.632 | 0.421 | 0.426 |
| RADAR-Unseen Paraphraser - entropy | 0.779 | 0.710 | 0.499 | 0.618 | 0.651 |
| RADAR-Unseen Paraphraser - DetectGPT | 0.360 | 0.384 | 0.609 | 0.630 | 0.434 |
| RADAR-Unseen Paraphraser - OpenAI (RoBERTa) | 0.789 | 0.629 | 0.726 | 0.364 | 0.627 |
| RADAR-Unseen Paraphraser - RADAR | 0.955 | 0.861 | 0.851 | 0.763 | 0.857 |
- RADARは8つのLLMと4つのデータセットで堅牢なAIテキスト検出を達成し、パラフレージングが存在する場合にベースラインを上回る。
- 検出器は未変化のAIテキストに対して競争力のある性能を維持しつつ、パラフレージングへの堅牢性を獲得する。
- 指示調整済みLLMで訓練された検出器は他のLLMへより良く転移し、普遍的な検出器の可能性を示唆する。
- RADAR検出器は複数のケースでGPT-4生成テキストへの転移が強いことを示す。
- RADARは副次的効果としてパラフレーザー品質も向上し、人間らしい評価とiBLEUスコアに基づいてより高品質なパラフレーズを生み出す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。