QUICK REVIEW

[論文レビュー] Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts

Eduard Tulchinskii, Kristian Kuznetsov|arXiv (Cornell University)|Jun 7, 2023

Natural Language Processing Techniques参考文献 54被引用数 31

ひとこと要約

論文はテキストサンプル用の持続的ホモロジーに基づく内在次元（PHD）推定量を導入し、人間のテキストがAI生成テキストより高い内在次元を持つことを示し、堅牢でモデル・ドメインに依存しない検出器を実現する。

ABSTRACT

Rapidly increasing quality of AI-generated content makes it difficult to distinguish between human and AI-generated texts, which may lead to undesirable consequences for society. Therefore, it becomes increasingly important to study the properties of human texts that are invariant over different text domains and varying proficiency of human writers, can be easily calculated for any language, and can robustly separate natural and AI-generated texts regardless of the generation model and sampling method. In this work, we propose such an invariant for human-written texts, namely the intrinsic dimensionality of the manifold underlying the set of embeddings for a given text sample. We show that the average intrinsic dimensionality of fluent texts in a natural language is hovering around the value $9$ for several alphabet-based languages and around $7$ for Chinese, while the average intrinsic dimensionality of AI-generated texts for each language is $\approx 1.5$ lower, with a clear statistical separation between human-generated and AI-generated distributions. This property allows us to build a score-based artificial text detector. The proposed detector's accuracy is stable over text domains, generator models, and human writer proficiency levels, outperforming SOTA detectors in model-agnostic and cross-domain scenarios by a significant margin.

研究の動機と目的

人間が書いたテキストとAI生成テキストを、ドメインと言語を超えて識別する不変なテキスト特性を特定する。
unseen な生成モデルとサンプリング方法に一般化する、低次元で計算に優しい検出器を開発する。
ドメインシフト、モデルシフト、敵対的改変に対する頑健性を示す。
複数言語のデータとコードを提供し、再現性とさらなる ATD 研究を可能にする。

提案手法

トークン埋め込みを固定次元空間の点の雲として表現し、テキストサンプルの内在次元を推定する。
事前学習済み RoBERTa-base（英語）または XLM-R（多言語）を用いて文脈化トークン埋め込みを計算する。
MSTベースの寿命の成長率解析を介してPHD推定量を適用し、対数-対数回帰から次元dを得る。
トークン埋め込みの複数のサブセットをサンプリングし、各サブセットについて E0^1(Si) を計算し、対数-対数ペアの線形回帰を用いて傾きとそれによりdを推定する。
PHDを特徴量として用い、実テキストとAI生成テキストを区別する単一特徴のロジスティック回帰分類器を訓練する。
PHDをベースライン（MLE、DetectGPT、GPTZero、OpenAI detector、RankGen）と比較し、クロスドメインおよびクロスモデル設定で評価する。

実験結果

リサーチクエスチョン

RQ1テキスト埋め込みの内在次元性は、ドメインおよびモデルに依存しないAI生成テキスト検出信号として機能するか。
RQ2PHDは人間とAIテキストの分離を言語・ジャンル・生成モデルを超えて維持するか。
RQ3PHDは従来の検出器と比較して、クロスドメインおよび敵対的条件下でどのように差が出るか。
RQ4検出器はドメインシフトに頑健で、ベースラインと比べ非母語話者に対する偏りが少ないか。
RQ5PHDをテキストデータに適用する際の実用的考慮事項（サンプリングの安定性、計算） include 何があるか。

主な発見

人間作成のテキストは内在次元値が近く9–10程度（ヨーロッパ言語）でクラスタリングされる一方、中国語/日本語では約7、AI生成テキストは平均で約1.5低い。
PHDベースの検出器は、モデルに依存しない検出とクロスドメインのシナリオで、普遍的検出器より大きなマージンで優れている。
PHDはドメイン移行とクロスモデル移行に頑健で、クロスドメイン実験では監視付き RoBERTa ベース分類子を上回ることが多い。
PHDはジェネレータモデルとサンプリング方法に対して不変であり、DIPPERパラフレーズ攻撃下でも効果を保つが、いくつかのベースラインには及ばない。
10言語を超えて、PHDは中国語からスペイン語範囲でROC-AUCが約0.71〜0.83程度の言語固有の性能差を含みつつ達成する。
この手法はOpenAIおよびGPTZeroのベースラインと比較して非母語話者に対する偏りを抑え、敵対的プロンプト変更に対しても高い検出率を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。