[论文解读] The Statistical Signature of LLMs
论文展示了无损压缩作为一种与模型无关的结构规则性度量,在受控、媒介和合成设置中区分LLM生成文本与人类写作,且存在尺度相关的分离。
Large language models generate text through probabilistic sampling from high-dimensional distributions, yet how this process reshapes the structural statistical organization of language remains incompletely characterized. Here we show that lossless compression provides a simple, model-agnostic measure of statistical regularity that differentiates generative regimes directly from surface text. We analyze compression behavior across three progressively more complex information ecosystems: controlled human-LLM continuations, generative mediation of a knowledge infrastructure (Wikipedia vs. Grokipedia), and fully synthetic social interaction environments (Moltbook vs. Reddit). Across settings, compression reveals a persistent structural signature of probabilistic generation. In controlled and mediated contexts, LLM-produced language exhibits higher structural regularity and compressibility than human-written text, consistent with a concentration of output within highly recurrent statistical patterns. However, this signature shows scale dependence: in fragmented interaction environments the separation attenuates, suggesting a fundamental limit to surface-level distinguishability at small scales. This compressibility-based separation emerges consistently across models, tasks, and domains and can be observed directly from surface text without relying on model internals or semantic evaluation. Overall, our findings introduce a simple and robust framework for quantifying how generative systems reshape textual production, offering a structural perspective on the evolving complexity of communication.
研究动机与目标
- 证明无损压缩可以在不观察模型内部的情况下量化文本的结构规则性。
- 在逐步逼真的设置中比较人类撰写与LLM生成的语言。
- 表征概率生成如何重塑文本结构及其对尺度的依赖性。
提出的方法
- 在以UTF-8编码的表面文本上计算 gzip 基于的压缩比 R(x) = C(x)/|x|。
- 使用前缀基压缩曲线衡量正则性随文本长度的积累。
- 生成具有受控熵的合成文本,以将压缩行为映射到标记分布的集中程度。
- 分析三个数据集:受控的人机(Human–LLM)语料库、维基百科对 Grokipedia、Moltbook 对 Reddit。
- 提取额外特征(条件压缩、前缀曲线统计、词序度量、熵、TTR、重复性),并训练分类器区分人类与LLM。
- 对分类任务应用 SHAP 分析以解释特征重要性。

实验结果
研究问题
- RQ1无损压缩是否可以作为对概率性语言生成的模型无关信号?
- RQ2在受控、媒介和合成设置中,按压缩衡量的结构规则性在人类与机器生成的语言之间有何差异?
- RQ3基于压缩的签名是否在不同模型家族和任务情境中保持,且其随文本长度如何放大?
主要发现
- 在受控设置中,较高的词汇熵对应较高的压缩比(可压缩性更低),LLM文本通常比人类文本更易压缩。
- 使用基于压缩和词汇特征的二元分类器在“人类 vs LLM”任务上达到 0.93 的准确率,在它们的二元任务上达到 0.88 的 F1;GPT 系列信号尤为可辨识。
- 在维基百科 vs Grokipedia 中,压缩差异在较长的前缀时出现,Grokipedia 显示条件压缩略低、词级熵稍高。
- 在 Moltbook vs Reddit 中,差异仅在较短的帖文长度时可观察到,Moltbook 显示更高的词汇多样性且压缩性略低。
- 基于压缩的签名在跨模型家族和领域间能可靠地区分语言范畴,尽管在碎片化交互的较小尺度上分离弱化。
- 这些发现强调了由 plausibility 驱动的生成的结构性足迹,而非语义质量。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。