[論文レビュー] Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense
本論文は、ディスコース認識パラフレーズ器(dipper)がAI生成テキスト検出器を回避できる一方、意味的に一致する過去の生成を用いた retrieval ベースの防御がパラフレーズ出力を効果的に検出できることを示している。
The rise in malicious usage of large language models, such as fake content creation and academic plagiarism, has motivated the development of approaches that identify AI-generated text, including those based on watermarking or outlier detection. However, the robustness of these detection algorithms to paraphrases of AI-generated text remains unclear. To stress test these detectors, we build a 11B parameter paraphrase generation model (DIPPER) that can paraphrase paragraphs, condition on surrounding context, and control lexical diversity and content reordering. Using DIPPER to paraphrase text generated by three large language models (including GPT3.5-davinci-003) successfully evades several detectors, including watermarking, GPTZero, DetectGPT, and OpenAI's text classifier. For example, DIPPER drops detection accuracy of DetectGPT from 70.3% to 4.6% (at a constant false positive rate of 1%), without appreciably modifying the input semantics. To increase the robustness of AI-generated text detection to paraphrase attacks, we introduce a simple defense that relies on retrieving semantically-similar generations and must be maintained by a language model API provider. Given a candidate text, our algorithm searches a database of sequences previously generated by the API, looking for sequences that match the candidate text within a certain threshold. We empirically verify our defense using a database of 15M generations from a fine-tuned T5-XXL model and find that it can detect 80% to 97% of paraphrased generations across different settings while only classifying 1% of human-written sequences as AI-generated. We open-source our models, code and data.
研究の動機と目的
- AI生成テキスト検出器のパラフレーズ攻撃に対する頑健性を評価する。
- 長文パラフレージングを可能にし、多様性を制御できるディスコースレベルのパラフレージャを開発する。
- パラフレーズ攻撃下で、複数のLMとタスクにわたって検出器を評価する。
- 過去の生成データベースへの意味的マッチングによってAI生成テキストを検出する、取得ベースの防御を提案・評価する。
提案手法
- コンテキストと内容順序の制御を用いて、段落長のテキストをパラフレーズする11Bパラフレーズモデル(dipper)を訓練する。
- 文脈と多様性制御(語彙的多様性 L、内容順序 O)を持つ段落レベルのパラフレーズデータでdipperを微調整する。
- パラフレーズ出力を用いて、GPT2-XL, OPT-13B, GPT-3.5-davinci-003に対して watermarking, DetectGPT, GPTZero, OpenAIの分類器, RankGenなどの検出器を評価する。
- 人間のパラフレーズとの意味的類似性P-SPを用いて意味保存を測定する。
- すべてのAPI出力を保存し、BM25またはP-SP表現を用いてデータベースと照合することでパラフレーズを検出する取得ベースの防御を実証する。
- 取得を大規模コーパス(最大1500万生成)に拡張し、パラフレーズ攻撃下での検出性能を分析する。
実験結果
リサーチクエスチョン
- RQ1大規模パラフレーズモデルによって生成されたパラフレーズ攻撃に対して、既存のAI生成テキスト検出器はどれくらい頑健か。
- RQ2ディスコース認識パラフレーズモデルは意味を維持しつつ検出器を効果的に回避できるか。
- RQ3以前に生成されたシーケンスの大規模コーパスを用いた取得はパラフレーズ攻撃に対する頑健な防御となるか、またどの程度スケールするか。
- RQ4AI生成テキストの取得ベース検出の実用的な制限とスケーラビリティの考慮事項は何か。
- RQ5複数のLMとタスクに対して、パラフレーズ攻撃下で検出器の比較と取得ベース法との比較はどうなるか。
主な発見
- dipperによるパラフレーズは、検出器とモデル全体で検出精度を大幅に低下させる(例:GPT2-XLで1% FPR時にDetectGPTが70.3%から4.6%へ)。
- Dipperは高い意味保存を達成し、パラフレーズの88%–99%が中央値の人間パラフレーズ意味類似度(P-SP)を超える。
- 取得ベース検出はパラフレーズテキストで高い検出率を達成し、ベースラインを上回る(例:BM25で9Kまたは43K+コーパラの各モデルで97.3%-97.8%)。
- BM25ベースの取得はコーパス規模の拡大にも有効で、精度は僅かな低下にとどまる(例:PG19で15Mへスケール時に98.3%から97.3%へ)。
- 取得ベース検出はクエリ長に対して頑健で、50以上のトークンのクエリで最も良好に機能する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。