[論文レビュー] The Statistical Signature of LLMs
要約: 本論文は、損失なし圧縮をモデル非依存の構造的規則性の指標として提示し、管理された環境・媒介された環境・合成環境を横断して、LLM生成テキストと人間の書き物を区別するスケール依存的な分離を示す。
Large language models generate text through probabilistic sampling from high-dimensional distributions, yet how this process reshapes the structural statistical organization of language remains incompletely characterized. Here we show that lossless compression provides a simple, model-agnostic measure of statistical regularity that differentiates generative regimes directly from surface text. We analyze compression behavior across three progressively more complex information ecosystems: controlled human-LLM continuations, generative mediation of a knowledge infrastructure (Wikipedia vs. Grokipedia), and fully synthetic social interaction environments (Moltbook vs. Reddit). Across settings, compression reveals a persistent structural signature of probabilistic generation. In controlled and mediated contexts, LLM-produced language exhibits higher structural regularity and compressibility than human-written text, consistent with a concentration of output within highly recurrent statistical patterns. However, this signature shows scale dependence: in fragmented interaction environments the separation attenuates, suggesting a fundamental limit to surface-level distinguishability at small scales. This compressibility-based separation emerges consistently across models, tasks, and domains and can be observed directly from surface text without relying on model internals or semantic evaluation. Overall, our findings introduce a simple and robust framework for quantifying how generative systems reshape textual production, offering a structural perspective on the evolving complexity of communication.
研究の動機と目的
- テキストの構造的規則性をモデル内部を開示せずに定量化できることを実証する。
- 人間作成と言語モデル生成の言語を、徐々に現実味を増す設定で比較する。
- 確率的生成がテキスト構造をどのように再構成し、スケール依存性を持つかを特徴づける。
提案手法
- UTF-8でエンコードされた表層テキストに対して gzip ベースの圧縮比 R(x) = C(x)/|x| を計算する。
- プレフィックスベースの圧縮曲線を用いて、テキスト長に伴う規則性の蓄積を測定する。
- 制御されたエントロピーを用いた合成テキストを生成し、トークン分布の集中化と圧縮挙動の対応をマッピングする。
- 三つのデータセットを分析する:制御された Human–LLM コーパス、Wikipedia vs Grokipedia、Moltbook vs Reddit。
- 追加特徴(条件付き圧縮、プレフィックス曲線の統計、語順指標、エントロピー、TTR、反復)を抽出し、Human vs LLM を識別する分類器を訓練する。
- 分類タスクの特徴量の重要度を解釈するために SHAP 分析を適用する。

実験結果
リサーチクエスチョン
- RQ1損失なし圧縮は、モデルに依存しない確率的言語生成の信号として機能するか。
- RQ2圧縮で測定される構造的規則性は、管理・媒介・合成設定を横断して、人間と機械生成言語でどのように異なるか。
- RQ3圧縮ベースの署名は異なるモデルファミリやタスク文脈を通じて持続するか、またテキスト長とともにどのようにスケールするか。
主な発見
- 管理設定では、語彙エントロピーが高いほど圧縮比が高く(圧縮性が低く)、LLMテキストは一般に人間テキストより圧縮しやすい。
- 圧縮ベースと語彙特徴を用いた二値分類器は、人間 vs LLM で0.93の精度、二値タスクで0.88のF1を達成;GPTファミリー信号は特に識別可能。
- Wikipedia vs Grokipedia では、長いプレフィックスで圧縮差が現れ、Grokipedia は条件付き圧縮がやや低く、語彙レベルのエントロピーが高い。
- Moltbook vs Reddit では、差は短い投稿長でのみ観察され、Moltbook は語彙の多様性が高く、圧縮性が若干低い。
- 圧縮ベースの署名は、モデルファミリとドメインを越えて言語レジームを確実に分離するが、断片的な相互作用という小さなスケールでは分離が弱まる。
- 発見は、意味内容の質ではなく、妥当性駆動生成の構造的痕跡を強調する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。