[論文レビュー] Can AI-Generated Text be Reliably Detected?
この論文は、現在のAIテキスト検出器(ウォーターマーク型、ゼロショット、リトリーブベース)がパラフレーズに対して脆弱であり、理論的には言語モデルがより能力を高めるにつれて検出の信頼性が低下することを示している。実証的な攻撃と検出の基本的な限界を示す不可能性結果が含まれている。
Large Language Models (LLMs) perform impressively well in various applications. However, the potential for misuse of these models in activities such as plagiarism, generating fake news, and spamming has raised concern about their responsible use. Consequently, the reliable detection of AI-generated text has become a critical area of research. AI text detectors have shown to be effective under their specific settings. In this paper, we stress-test the robustness of these AI text detectors in the presence of an attacker. We introduce recursive paraphrasing attack to stress test a wide range of detection schemes, including the ones using the watermarking as well as neural network-based detectors, zero shot classifiers, and retrieval-based detectors. Our experiments conducted on passages, each approximately 300 tokens long, reveal the varying sensitivities of these detectors to our attacks. Our findings indicate that while our recursive paraphrasing method can significantly reduce detection rates, it only slightly degrades text quality in many cases, highlighting potential vulnerabilities in current detection systems in the presence of an attacker. Additionally, we investigate the susceptibility of watermarked LLMs to spoofing attacks aimed at misclassifying human-written text as AI-generated. We demonstrate that an attacker can infer hidden AI text signatures without white-box access to the detection method, potentially leading to reputational risks for LLM developers. Finally, we provide a theoretical framework connecting the AUROC of the best possible detector to the Total Variation distance between human and AI text distributions. This analysis offers insights into the fundamental challenges of reliable detection as language models continue to advance. Our code is publicly available at https://github.com/vinusankars/Reliability-of-AI-text-detectors.
研究の動機と目的
- 既存のAI生成テキスト検出器(ウォーターマーキング、ゼロショット、リトリーブベース)の信頼性を評価する。
- テキスト品質を大きく損なうことなく検出器の性能を低下させるパラフレージング攻撃を実演する。
- 人間とAIテキスト分布間の総変動距離を用いて検出の理論的限界を示す。
提案手法
- 軽量パラフレージャ(PEGASUSベースおよびT5ベース)を用いたパラフレージング攻撃の実証評価を、ウォーターマーク有無にかかわらずのテキストで実施。
- 再帰的パラフレージング(複数ラウンドまで)を用いて、ソフトウォーターマーク、ゼロショット、ニューラルネットワークベース、およびリトリーブベースの検出器に対する堅牢性を検証。
- 再帰的パラフレージングとパラフレーズベースの偽装攻撃に対してリトリーブベースの防御を評価。
- 人間とAIテキスト分布間の総変動距離とAUROCを関連づける不可能性境界の理論的導出。
- テキスト生成における疑似乱数と真の乱数の区別へ不可能性結果を拡張。
- 隠れた署名を推定して検出器の信頼性を低下させる偽装分析。
![Figure 1 : An illustration of vulnerabilities of existing AI-text detectors. We consider both watermarking-based [ 1 ] and non-watermarking-based detectors [ 2 , 3 , 4 ] and show that they are not reliable in practical scenarios. Colored arrow paths show the potential pipelines for adversaries to av](https://ar5iv.labs.arxiv.org/html/2303.11156/assets/images/title-wm.png)
実験結果
リサーチクエスチョン
- RQ1実用的なパラフレージングや偽装攻撃の下で、現在の検出器はAI生成テキストを信頼性高く識別できるか。
- RQ2パラフレージングおよび再帰的パラフレージングが、ウォーターマーキング、ゼロショット、ニューラルネットワーク検出器、リトリーブベースの防御の精度にどう影響するか。
- RQ3LLMの能力が高まるにつれてAI生成テキストを検出する際の基本的な限界は何か。
- RQ4生成時の疑似乱数性は検出可能性と検出器の性能にどう影響するか。
- RQ5偽装攻撃はウォーターマークと検出器の信頼性を損なうことができるか、またどのような条件下で?
主な発見
- パラフレージング攻撃は、ウォーターマーク、ゼロショット、ニューラルネットワーク検出器の性能を著しく低下させる(例:ウォーターマーキングの正解率が97%から80%へ、ゼロショットのAUROCが96.5%から25.2%へ)。
- 再帰的パラフレージングは、リトリーブベースの検出器を1%のFPRで100%から25%の精度に低下させる;ウォーターマークとゼロショット検出器も深刻な低下を被る。
- 不可能性の結果はAUROC(D) ≤ 1/2 + TV(M, H) − TV(M, H)^2/2を示し、分布が収束すると検出はランダム推定に近づくことを意味する;疑似乱数ケースではεが無視できる程度で成立する。
- 経験的推定は、より大きなモデルほど人間とGPT-3モデル出力間の総変動が小さくなることを示し、理論的制限を裏付ける。
- 敵対者がウォーターマーク署名を学習したり意味的なリトリーブを悪用したりする偽装攻撃は、人間のテキストがAI生成と検出されてしまい、検出器の信頼を損なう可能性がある。
- 結果は、実世界での展開前に検出器を慎重に、独立した厳格な評価を行うべきであることを訴える。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。