QUICK REVIEW

[论文解读] A Model of Artificial Jagged Intelligence

Joshua Gans|arXiv (Cornell University)|Jan 12, 2026

Advanced Bandit Algorithms Research被引用 0

一句话总结

本论文提出一个 AI 锯齿性经济模型（AJI），其中局部可靠性在任务之间存在差异，采用取决于可发现性、校准和熟练度，而不仅仅是平均性能。

ABSTRACT

Generative AI systems often display highly uneven performance across tasks that appear ``nearby'': they can be excellent on one prompt and confidently wrong on another with only small changes in wording or context. We call this phenomenon Artificial Jagged Intelligence (AJI). This paper develops a tractable economic model of AJI that treats adoption as an information problem: users care about \emph{local} reliability, but typically observe only coarse, global quality signals. In a baseline one-dimensional landscape, truth is a rough Brownian process, and the model ``knows'' scattered points drawn from a Poisson process. The model interpolates optimally, and the local error is measured by posterior variance. We derive an adoption threshold for a blind user, show that experienced errors are amplified by the inspection paradox, and interpret scaling laws as denser coverage that improves average quality without eliminating jaggedness. We then study mastery and calibration: a calibrated user who can condition on local uncertainty enjoys positive expected value even in domains that fail the blind adoption test. Modelling mastery as learning a reliability map via Gaussian process regression yields a learning-rate bound driven by information gain, clarifying when discovering ``where the model works'' is slow. Finally, we study how scaling interacts with discoverability: when calibrated signals and user mastery accelerate the harvesting of scale improvements, and when opacity can make gains from scaling effectively invisible.

研究动机与目标

解释局部可靠性异质性如何影响知识工作场景中的 AI 采用与生产率。
引入一个可处理的基准模型：将泊松知识点过程与布朗真值景观结合起来。
在盲用条件下推导采用阈值并分析经验错误中的检验悖论的作用。
研究扩展（更密集的知识覆盖）和校准如何改变福利以及 jaggedness 的退化效应。
揭示熟练度和界面设计如何与原始模型改进互补，以实现高效的人机协作。

提出的方法

将知识点建模为强度为 lambda 的泊松点过程以表示覆盖密度。
将真值景观 Y(x) 表示为布朗运动，以在相邻知识点之间生成粗糙的插值风险。
计算相邻知识点之间插值的后验方差 sigma^2(x)。 sigma^2(x) = (x-x_i)(x_{i+1}-x)/(x_{i+1}-x_i)。
将用户收益 U(x) = 1 - sigma^2(x)/q 定义为在盲用（外部选项为 0）下的采用分析。
在盲用采用下推导采用阈值：q >= 1/(3 lambda)（等价地 R >= 1，R = 3 lambda q）。
引入校准作为基准，在其中用户观察 sigma^2(x) 并显示取值依赖于 R 的正向价值 U_C(R)。

实验结果

研究问题

RQ1局部、任务级别的可靠性异质性如何在不透明条件下影响 AI 采用与福利？
RQ2当用户在没有任务特定可靠性信号时，采用阈值是多少？
RQ3扩展（更密集覆盖、较大 lambda）如何改变预期误差与 jaggedness？
RQ4校准或熟练度如何在 AJI 条件下改变 AI 助手的价值与采用？
RQ5扩展、校准与熟练度在提升生产力方面的互补性或替代性如何？

主要发现

盲用采用只有在可靠性指数 R = 3 lambda q 至少为 1 时才可能是最优的。
扩大扩展（提高 lambda）可降低局部后验方差，但形状上的 jaggedness 仍然存在。
校准将 jaggedness 转化为一种选项价值，相对于盲用带来正向福利增益。
熟练度导致的学习率受信息增益支配；在高维空间中模型有效的学习可能较慢。
存在互补性：扩展与校准/熟练度可以是替代或互补，取决于采用阈值；界面设计可以在不完全改进模型的情况下提升可发现性。
模型强调了检验悖论：经验错误被放大，因为用户在知识点之间的较长间隙中花费的时间更长。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。