[論文レビュー] Large Language Models can be Guided to Evade AI-Generated Text Detection
本論文は SICO を提案する。置換を用いたイン-context 学習法で、タスク固有のプロンプトを構築し、LLM が複数の検出機を跨いで検出回避を可能にする。低コストで広範な適用性を持つ。
Large language models (LLMs) have shown remarkable performance in various tasks and have been extensively utilized by the public. However, the increasing concerns regarding the misuse of LLMs, such as plagiarism and spamming, have led to the development of multiple detectors, including fine-tuned classifiers and statistical methods. In this study, we equip LLMs with prompts, rather than relying on an external paraphraser, to evaluate the vulnerability of these detectors. We propose a novel Substitution-based In-Context example Optimization method (SICO) to automatically construct prompts for evading the detectors. SICO is cost-efficient as it requires only 40 human-written examples and a limited number of LLM inferences to generate a prompt. Moreover, once a task-specific prompt has been constructed, it can be universally used against a wide range of detectors. Extensive experiments across three real-world tasks demonstrate that SICO significantly outperforms the paraphraser baselines and enables GPT-3.5 to successfully evade six detectors, decreasing their AUC by 0.5 on average. Furthermore, a comprehensive human evaluation show that the SICO-generated text achieves human-level readability and task completion rates, while preserving high imperceptibility. Finally, we propose an ensemble approach to enhance the robustness of detectors against SICO attack. The code is publicly available at https://github.com/ColinLu50/Evade-GPT-Detector.
研究の動機と目的
- プロンプト誘導回避に対するAI生成テキスト検出器の頑健性を評価する。
- 検出器のAUCを低減するプロンプトを自動的に構築する低コストな手法を開発する。
- 現実世界の3つのタスクと検出器を横断してSICOの有効性を実証する。
- SICO生成テキストの人間による読みやすさと現実世界での適用性を評価する。
提案手法
- 検出器からの回避を最大化するプロンプト効用関数U(p)を定義する。
- 言語特徴を抽出するため、AI作成および人間作成の出力からなるデータセットDを収集する。
- 文脈内提示の語句や文を反復的に置換してプロンプトを最適化する(GreedyOPT)。
- 代理検出器に導かれた WordNetベースの語レベル置換およびパラフレーズレベルの文置換を用いる。
- タスクプロンプト p* を作成し、効用比較により最良を選択する。
- SICO-Gen(直接生成)とSICO-Para(パラフレーズ)バリアントを提供する。
実験結果
リサーチクエスチョン
- RQ1プロンプト誘導付きインコンテキスト学習は、外部のパラフレーズ器より検出回避性能で上回るか。
- RQ2検出器とタスクを跨ぐSICOのコスト・頑健性・汎用性はどの程度か。
- RQ3人間の評価者はSICO生成テキストを読みやすく、目標指向と評価するか。
- RQ4現実世界の設定(例:Reddit)でのSICOの性能はどうか。
主な発見
| データセット | 手法 | GPT3-D* | GPT2-D | GPTzero | OpenAI-D | DetectGPT | Log-Rank |
|---|---|---|---|---|---|---|---|
| Writing | Parrot | 0.666 | 0.645 | 0.632 | 0.744 | 0.502 | 0.577 |
| Writing | DIPPER | 0.736 | 0.907 | 0.689 | 0.750 | 0.550 | 0.684 |
| Writing | GPT-Para | 0.879 | 0.623 | 0.631 | 0.690 | 0.569 | 0.713 |
| Writing | Human Prompt | 0.852 | 0.560 | 0.491 | 0.655 | 0.676 | 0.759 |
| Writing | SICO-Para | 0.239 | 0.332 | 0.290 | 0.488 | 0.149 | 0.147 |
| Writing | SICO-Gen | 0.242 | 0.099 | 0.184 | 0.311 | 0.441 | 0.318 |
| QA | Parrot | 0.922 | 0.837 | 0.849 | 0.698 | 0.689 | 0.806 |
| QA | DIPPER | 0.888 | 0.962 | 0.869 | 0.722 | 0.604 | 0.782 |
| QA | GPT-Para | 0.956 | 0.797 | 0.811 | 0.699 | 0.640 | 0.782 |
| QA | Human Prompt | 0.912 | 0.625 | 0.791 | 0.656 | 0.662 | 0.757 |
| QA | SICO-Para | 0.407 | 0.576 | 0.572 | 0.541 | 0.178 | 0.183 |
| QA | SICO-Gen | 0.668 | 0.489 | 0.494 | 0.524 | 0.497 | 0.535 |
| Review | Parrot | 0.871 | 0.934 | 0.913 | 0.882 | 0.654 | 0.893 |
| Review | DIPPER | 0.875 | 0.984 | 0.888 | 0.824 | 0.515 | 0.814 |
| Review | GPT-Para | 0.899 | 0.851 | 0.833 | 0.925 | 0.542 | 0.864 |
| Review | Human Prompt | 0.839 | 0.610 | 0.856 | 0.858 | 0.619 | 0.851 |
| Review | SICO-Para | 0.465 | 0.264 | 0.599 | 0.540 | 0.270 | 0.300 |
| Review | SICO-Gen | 0.455 | 0.619 | 0.399 | 0.607 | 0.485 | 0.583 |
- SICOは6検出器・3タスクにわたり検出器のAUCを一貫して低下させ、しばしば0.5を下回る。
- SICO-Paraは統計的検出器に対してはSICO-Genより一般に優位である;両アプローチとも強い回避を達成。
- 人間評価ではSICOテキストは高い読みやすさを示し、人間作成テキストに近いタスク完了率を達成。
- 実環境のRedditテストでは、SICO生成の返信がいいねやエンゲージメントを獲得。
- SICOは人間作成例40件のみと控えめなLLM推論で済み、検出器を横断してプロンプトが一般化する。
- SICOは今後のAI生成テキスト検出器の標準評価ツールとなり得る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。