[论文解读] Large Language Models are Algorithmically Blind
论文评估了八种前沿大模型,结果发现它们在因果发现中的算法性能预测缺乏校准,存在算法性盲区,通常表现不优于随机基线。
Large language models (LLMs) demonstrate remarkable breadth of knowledge, yet their ability to reason about computational processes remains poorly understood. Closing this gap matters for practitioners who rely on LLMs to guide algorithm selection and deployment. We address this limitation using causal discovery as a testbed and evaluate eight frontier LLMs against ground truth derived from large-scale algorithm executions and find systematic, near-total failure. Models produce ranges far wider than true confidence intervals yet still fail to contain the true algorithmic mean in the majority of instances; most perform worse than random guessing and the marginal above-random performance of the best model is most consistent with benchmark memorization rather than principled reasoning. We term this failure algorithmic blindness and argue it reflects a fundamental gap between declarative knowledge about algorithms and calibrated procedural prediction.
研究动机与目标
- 评估前沿大模型在因果发现任务中以校准不确定性预测算法性能的能力。
- 通过区间覆盖率衡量LLM预测区间与经验真实值之间的校准程度。
- 通过在基准数据集与合成数据集的测试,分辨记忆效应与真实推理。
提出的方法
- 通过运行5,200次因果发现实验(13个数据集 × 4种算法 × 100次运行)来计算真实的算法性能,并利用自助法置信区间推导经验均值。
- 对8个前沿大模型在每种条件下使用3种提示 formulations,提取四个指标的预测性能区间。
- 对提示形式进行汇总预测,并将校准覆盖率与真实值进行比较。
- 将LLM与随机和启发式基线进行对比,评估额外价值。
- 通过不同提示的变异系数分析提示敏感性,并考察数据集类型(基准 vs 合成)对结果的影响。
- 通过区间宽度、跨模型一致性以及算法–指标交互来探测记忆信号。

实验结果
研究问题
- RQ1当给定问题结构时,前沿LLM是否能提供因果发现算法性能的校准区间估计?
- RQ2LLMs是在基于原理的推理还是记忆化的基准统计来预测算法性能?
- RQ3在基准数据集与合成数据集之间,及在不同算法与指标下,LLM的预测有何差异?
主要发现
| 模型 | 覆盖率 (%) | 比较次数 | 平均得分 |
|---|---|---|---|
| Claude | 39.4 | 82/208 | 0.442 |
| GPT-5 | 15.4 | 32/208 | 0.217 |
| DeepSeek-Think | 14.9 | 31/208 | 0.174 |
| DeepSeek | 14.4 | 30/208 | 0.198 |
| Qwen-Think | 13.9 | 29/208 | 0.191 |
| Gemini 3 | 13.0 | 27/208 | 0.182 |
| LLaMA | 10.1 | 21/208 | 0.152 |
| Qwen | 5.8 | 12/208 | 0.068 |
| Mean | — | — | — |
- 平均校准覆盖率在1,664次比较中为15.9%,其中八个模型中有七个低于随机猜测水平。
- Claude表现最佳,覆盖率为39.4%,但仍略高于随机基线(36.5%)。
- 有七个模型低于随机基线,最佳模型的边际优势被归因于记忆而非推理。
- 校准区间宽度(预测区间)比真实置信区间宽8–27倍,但覆盖仍然偏低。
- 合成数据显示显著的覆盖率下降和更大的跨模型分歧,表明记忆效应大于基于结构的泛化。
- 算法–指标交互和区间宽度压缩提供了检索基准统计信息而非受结构条件约束的理解的证据。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。