[論文レビュー] MAGE: Machine-generated Text Detection in the Wild
この論文は、多様なドメインとLLMsに跨る機械作成テキスト検出のための野外テストベッドを構築し、いくつかの検出器をベンチマークし、監視付きPLMベースの手法が最も強力であることを示し、境界の調整を使った小さいin-domainサンプルによってout-of-distribution検出が改善される。
Large language models (LLMs) have achieved human-level text generation, emphasizing the need for effective AI-generated text detection to mitigate risks like the spread of fake news and plagiarism. Existing research has been constrained by evaluating detection methods on specific domains or particular language models. In practical scenarios, however, the detector faces texts from various domains or LLMs without knowing their sources. To this end, we build a comprehensive testbed by gathering texts from diverse human writings and texts generated by different LLMs. Empirical results show challenges in distinguishing machine-generated texts from human-authored ones across various scenarios, especially out-of-distribution. These challenges are due to the decreasing linguistic distinctions between the two sources. Despite challenges, the top-performing detector can identify 86.54% out-of-domain texts generated by a new LLM, indicating the feasibility for application scenarios. We release our resources at https://github.com/yafuly/MAGE.
研究の動機と目的
- 現実的で出所不明な設定において、多様なドメインとモデルを横断した堅牢なディープフェイクテキスト検出を動機づける。
- 多くのLLMからの人間作成テキストと機械生成テキストを組み合わせた、 大規模で多様なwildテストベッドを作成する。
- 在-in-domainとout-of-distribution条件で一般化ギャップを理解するために、一般的な検出手法を評価する。
- 検出器の境界と性能に影響を及ぼす言語的および困惑度(perplexity)関連のバイアスを調査する。
- 実世界の検出器展開と評価を改善する実践的な指針を提供する。
提案手法
- 3つのプロンプトタイプ(継続、トピック、指定)を用いて、10個の人間作成データセットと27のLLMからの機械生成テキストを用いた大規模なwildテストベッドを構築する。
- 検出タスクの分類ヘッドを備えたLongformerベースのPLM分類器をファインチューニングする。
- 特徴量ベースの検出器(FastText、GLTR)とゼロショット検 detector(DetectGPT)と比較する。
- 6つのin-distributionテストベッド(wildさを増す)と2つのout-of-distributionシナリオ(未知のドメイン/モデル)で検出器を評価する。
- AvgRec(average recall)を主要指標、AUROCを補助指標として用いる。
実験結果
リサーチクエスチョン
- RQ1トピックやドメインを問わず、人間作成テキストと機械生成テキストの内在的な差異はあるか。
- RQ2ソースLLMにアクセスせず、wildな設定で機械生成テキストを検出する一般的な検出手法は識別できるか。
- RQ3未見のドメインや未見のモデルファミリへどの程度検出器は一般化できるか。
- RQ4実用的な調整(例:意思決定境界の調整)はout-of-distribution検出を改善するか。
主な発見
- PLMベースの検出器はin-domain設定で一貫して他を上回り、高いAvgRecとAUROCを達成。
- 異なるドメインやモデルデータに直面すると検出器の性能が低下し、out-of-distribution条件下でAvgRecとAUROCの低下が顕著。
- DetectGPTとGLTRはスコアリングモデルが偽テキストソースと一致する場合に強い性能を示すが、未知のモデルやドメインでは性能が崩れる。
- Longformerはクロスドメイン/クロスモデル設定で最も強い全体性能を維持し、多くのケースでAvgRecは約90%、一部のin-domain設定でAUROCは0.99近い。
- PLMベース検出器には困惑度バイアスが存在し、低困惑度テキストは機械生成と誤分類されやすく、高困惑度テキストは人間作成とみなされる傾向が意思決定境界に影響を与える。
- in-domainデータの0.1%を使った境界のtiny再選択はout-of-distributionないAvgRecを顕著に向上させる(例として最大+13.38%)。
- より長いテキストは検出精度を改善する。検出器にはより多くの信号が含まれるという直感を裏付ける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。