Skip to main content
QUICK REVIEW

[論文レビュー] Raidar: geneRative AI Detection viA Rewriting

Chengzhi Mao, Carl Vondrick|arXiv (Cornell University)|Jan 23, 2024
Topic Modeling被引用数 5
ひとこと要約

Raidar は入力を書換えさせて LLM を用いてAI生成テキストを検出し、テキストの変化量を測定します。不変性、共変性、そして不確実性信号を用いて、ドメインとモデルを跨る検出を改善します。

ABSTRACT

We find that large language models (LLMs) are more likely to modify human-written text than AI-generated text when tasked with rewriting. This tendency arises because LLMs often perceive AI-generated text as high-quality, leading to fewer modifications. We introduce a method to detect AI-generated content by prompting LLMs to rewrite text and calculating the editing distance of the output. We dubbed our geneRative AI Detection viA Rewriting method Raidar. Raidar significantly improves the F1 detection scores of existing AI content detection models -- both academic and commercial -- across various domains, including News, creative writing, student essays, code, Yelp reviews, and arXiv papers, with gains of up to 29 points. Operating solely on word symbols without high-dimensional features, our method is compatible with black box LLMs, and is inherently robust on new content. Our results illustrate the unique imprint of machine-generated text through the lens of the machines themselves.

研究の動機と目的

  • 進む LLM 能力の中で機械生成テキストの頑健な検出を動機づける。
  • 高次元特徴量に依存しない書換えベースの検出パラダイムを導入する。
  • 象徴的(単語レベル)出力と編集距離指標を活用して人間テキストと機械テキストを区別する。
  • ブラックボックス LLM や未見の生成器を含む、クロスドメイン・クロスモデルの頑健性を示す。

提案手法

  • 入力テキストを再構成する書換えプロンプトで LLM を促し、書換え版を得る。
  • 元のテキストと書換え後のテキストから不変性、共変性、出力不確実性の指標を計算する。
  • 連続的特徴空間に依存しないよう、離散的な単語-シンボル出力上で操作する。
  • Levenshtein ベースの比率と語彙袋編集を用いて、元のテキストと書換え後のテキストの編集距離を測定する。
  • 書換えベースの特徴量で二値分類器(ロジスティック回帰または XGBoost)を訓練する。
  • 複数のプロンプトで訓練することで、敵対的なプロンプトに対する頑健性を示す。

実験結果

リサーチクエスチョン

  • RQ1書換えベースの信号(不変性/共変性/不確実性)は、領域を跨いで機械生成テキストと人間生成テキストを信頼性高く区別できるか。
  • RQ2これらの信号は、ブラックボックス LLM を含む異なる言語モデルと書換えプロンプトに対して一般化するか。
  • RQ3入力長は検出性能にどう影響し、検出器を迂回する敵対的試行に耐え得るか。
  • RQ4異なる書換えモデル(Ada、Text-Davinci-002、GPT-3.5-turbo)が検出効果に与える影響はどれくらいか。
  • RQ5トレーニングモデルと異なるテストモデルが出現する分布外シナリオで、手法は頑健か。

主な発見

  • Raidar は最先端のベースラインと比較して検出性能を大幅に向上させ、いくつかのデータセットで最大 29 F1 点の向上を達成。
  • 未知の生成モデル(OOD 設定)のテキスト検出でも有効で、顕著な改善を示す(最大 32 点)。
  • GPT-3.5-turbo を用いた単一の書換えプロンプトでも高い検出性能を示し、より大きい書換えモデルは結果をさらに向上させる。
  • ニュース、創作、学生エッセイ、コード、Yelp、arXiv 要約など、ドメインを跨いで検出が頑健であり、検出回避を狙ったプロンプトにも対応。
  • より長い入力は一般に検出性能を高め、短い入力(最大十語程度)でも合理的な F1 スコアを達成する。
  • 複数のプロンプトで訓練することで、敵対的な言い換え試行に対する頑健性が向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。