Skip to main content
QUICK REVIEW

[論文レビュー] DetectLLM: Leveraging Log Rank Information for Zero-Shot Detection of Machine-Generated Text

Jinyan Su, Terry Yue Zhuo|arXiv (Cornell University)|May 23, 2023
Topic Modeling被引用数 15
ひとこと要約

本論文は、対数尤度と対数順位統計量を利用して機械生成テキストを検出する2つのゼロショットデテクター DetectLLM-LRR および DetectLLM-NPR を提案し、従来のゼロショット手法に対して最先端の AUROC 増分を達成する。

ABSTRACT

With the rapid progress of large language models (LLMs) and the huge amount of text they generated, it becomes more and more impractical to manually distinguish whether a text is machine-generated. Given the growing use of LLMs in social media and education, it prompts us to develop methods to detect machine-generated text, preventing malicious usage such as plagiarism, misinformation, and propaganda. Previous work has studied several zero-shot methods, which require no training data. These methods achieve good performance, but there is still a lot of room for improvement. In this paper, we introduce two novel zero-shot methods for detecting machine-generated text by leveraging the log rank information. One is called DetectLLM-LRR, which is fast and efficient, and the other is called DetectLLM-NPR, which is more accurate, but slower due to the need for perturbations. Our experiments on three datasets and seven language models show that our proposed methods improve over the state of the art by 3.9 and 1.75 AUROC points absolute. Moreover, DetectLLM-NPR needs fewer perturbations than previous work to achieve the same level of performance, which makes it more practical for real-world use. We also investigate the efficiency--performance trade-off based on users preference on these two measures and we provide intuition for using them in practice effectively. We release the data and the code of both methods in https://github.com/mbzuai-nlp/DetectLLM

研究の動機と目的

  • 教育やメディアにおける広範なLLM利用の拡大により、機械生成テキスト検出のスケーラビリティが必要であることを動機づける。
  • トレーニングを必要としないゼロショット検出器を提案し、対数順位統計量を用いて人間テキストと機械テキストを識別する。
  • LRR(高速)とNPR(より正確だが遅い)の2つのバリアントを、複数のデータセットとモデルで比較。
  • 実用展開における効率と性能の指針を提供。
  • 再現性のある評価を可能にするためデータとコードを公開。

提案手法

  • 平均対数確率と平均トークン順位情報の組み合わせとして、Log-Likelihood Log-Rank Ratio (LRR) を定義する。
  • Normalized Perturbed Log-Rank (NPR) を、元の対数順位で正規化された撹乱ベースのスコアとして定義し、少しのテキスト書き換えを含む。
  • モデル訓練なしのホワイトボックス、ゼロショット設定で、LRRまたはNPRを用いてテキストを分類。
  • 複数のLLMとデータセットで、ベースラインのゼロショット検出器(log p、Rank、Log Rank、Entropy、DetectGPT)に対して両手法を評価。
  • デコーディング戦略(top-k、nucleus)と温度パラメータの性能への影響を分析。
  • 計算コストを論じ、効率と精度のバランスをとる実務的な指針を提供。

実験結果

リサーチクエスチョン

  • RQ1対数順位情報は対数尤度信号を補強し、機械生成テキストのゼロショット検出を改善できるか?
  • RQ2LRRとNPRは、データセットやモデルサイズ全体で、既存のゼロショット検出器と比較してどのように性能を発揮するか?
  • RQ3撹乱なし vs 撹乱ベースのゼロショット手法を使用する際の効率と性能のトレードオフは?
  • RQ4デコoding戦略と撹乱設定は検出精度と実用性にどう影響するか?
  • RQ5リソース制約とモデルアクセスに関して、実世界の展開にどのような指針を示せるか?

主な発見

  • LRRとNPRは、データセットとモデル全体で平均して前例のベストだったゼロショット手法をそれぞれ3.9点、1.75点 AUROC上回る。
  • NPRは同じ性能を達成するのに前例より撹乱回数が少なくて済み、実用性を高める。
  • 3つのデータセットと7つの言語モデルにおいて、撹乱なしLRRは撹乱ベースの手法のいくつかを上回ることがあり、効率性の向上を示す。
  • 同一撹乱予算の下で、NPRは一般にDetectGPTを上回り、効率-精度の点で優れているが、しかし大きな撹乱設定は依然として性能を引き上げる。
  • 研究はデコーディング戦略と温度を分析し、LRRとLog Rankが異なるデコーディングレジームを好むこと、NPRが設定を超えて競争力を維持することを示す。
  • 著者は計算時間と現実的な速さと精度のバランスを詳述した費用対効果の枠組みを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。