[논문 리뷰] Large Language Models are Algorithmically Blind
본 논문은 여덟 개의 최전선 LLM을 평가하고 이들이 인과 탐지에서 알고리즘 성능의 보정된 예측을 제공하는 데 크게 실패하며 알고리즘적 맹점을 보이고 종종 무작위 기준선과 다를 바 없이 수행한다는 것을 발견했다.
Large language models (LLMs) demonstrate remarkable breadth of knowledge, yet their ability to reason about computational processes remains poorly understood. Closing this gap matters for practitioners who rely on LLMs to guide algorithm selection and deployment. We address this limitation using causal discovery as a testbed and evaluate eight frontier LLMs against ground truth derived from large-scale algorithm executions and find systematic, near-total failure. Models produce ranges far wider than true confidence intervals yet still fail to contain the true algorithmic mean in the majority of instances; most perform worse than random guessing and the marginal above-random performance of the best model is most consistent with benchmark memorization rather than principled reasoning. We term this failure algorithmic blindness and argue it reflects a fundamental gap between declarative knowledge about algorithms and calibrated procedural prediction.
연구 동기 및 목표
- 최전선 LLM이 인과 탐지 작업에서 보정된 불확실성으로 알고리즘 성능을 예측할 수 있는지 평가한다.
- LLM이 예측한 범위와 실험적 실제 값 간의 구간 커버리지를 통해 보정을 정량화한다.
- 벤치마크 데이터셋과 합성 데이터셋으로 테스트하여 기억화 효과를 진정한 추론과 분리한다.
제안 방법
- 5,200건의 인과 탐지 실험(13개 데이터셋 × 4개 알고리즘 × 100회 실행)을 수행하여 실제 알고리즘 성능을 계산하고 부트스트랩 신뢰구간으로 경험적 평균을 도출한다.
- 조건당 3개의 프롬프트 형식으로 8개의 최전선 LLM에 질의하여 네 가지 척도에 대한 예측 성능 범위를 도출한다.
- 프롬프트 형식 전반의 예측을 모아 보정 커버리지를 실제값과 대조해 평가한다.
- LLMs를 무작위 및 휴리스틱 기준선과 비교하여 추가 가치를 평가한다.
- 프롬프트 간 변동계수로 프롬프트 민감도를 분석하고 데이터셋 유형(벤치마크 대 합성) 효과를 살펴본다.
- 범위 폭, 모델 간 일치성, 알고리즘–척도 간 상호작용을 통해 기억화 신호를 조사한다.

실험 결과
연구 질문
- RQ1문제 구조가 주어졌을 때 최전선 LLM이 인과 탐지 알고리즘 성능의 보정된 구간 추정치를 제공할 수 있는가?
- RQ2LLM이 알고리즘 성능을 예측할 때 원칙적 추론에 의존하는가 아니면 기억된 벤치마크 통계에 의존하는가?
- RQ3벤치마크 데이터셋과 합성 데이터셋 간, 그리고 알고리즘과 척도 간에 LLM 예측은 어떻게 다르나요?
주요 결과
| 모델 | 커버리지 (%) | 비교 | 평균 점수 |
|---|---|---|---|
| Claude | 39.4 | 82/208 | 0.442 |
| GPT-5 | 15.4 | 32/208 | 0.217 |
| DeepSeek-Think | 14.9 | 31/208 | 0.174 |
| DeepSeek | 14.4 | 30/208 | 0.198 |
| Qwen-Think | 13.9 | 29/208 | 0.191 |
| Gemini 3 | 13.0 | 27/208 | 0.182 |
| LLaMA | 10.1 | 21/208 | 0.152 |
| Qwen | 5.8 | 12/208 | 0.068 |
| Mean | — | — | — |
- 1,664건 비교의 평균 보정 커버리지는 15.9%로, 8개 모델 중 7개가 무작위 추정 아래이다.
- Claude가 39.4% 커버리기로 최고 성능을 보였으나 여전히 무작위(36.5%)보다 약간 높은 수준이다.
- 일곱 모델이 무작위 기준선 아래로 떨어지며, 최상의 모델의 미미한 이점은 추론이 아닌 기억화 때문으로 보인다.
- 보정 폭(예측 범위)은 실제 신뢰구간보다 8~27배 넓으나 커버리지 양호도는 여전히 낮다.
- 합성 데이터에서 커버리지 저하가 크게 나타나고 모델 간 불일치도 커져 기억화 효과가 원칙적 일반화가 아님을 시사한다.
- 알고리즘–척도 상호작용 및 범위 폭의 축소는 구조 조건화된 이해보다는 벤치마크 통계의 회수 신호를 제공한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.