[논문 리뷰] Large Language Models Are Bad Dice Players: LLMs Struggle to Generate Random Numbers from Statistical Distributions
논문은 11개의 프런티어 LLM을 15개 분포에 걸쳐 감사를 수행하여 native sampling이 약하고 프로토콜 의존성이 높으며, independent sampling은 거의 완전히 실패하고 다운스트림 작업이 이러한 결점을 증폭한다.
As large language models (LLMs) transition from chat interfaces to integral components of stochastic pipelines across domains like educational assessment and synthetic data construction, the ability to faithfully sample from specified probability distributions has become a functional requirement rather than a theoretical curiosity. We present the first large-scale, statistically powered audit of native probabilistic sampling in frontier LLMs, benchmarking 11 models across 15 distributions. To disentangle failure modes, we employ a dual-protocol design: Batch Generation, where a model produces N=1000 samples within one response, and Independent Requests, comprising $N=1000$ stateless calls. We observe a sharp protocol asymmetry: batch generation achieves only modest statistical validity, with a 13% median pass rate, while independent requests collapse almost entirely, with 10 of 11 models passing none of the distributions. Beyond this asymmetry, we reveal that sampling fidelity degrades monotonically with distributional complexity and aggravates as the requested sampling horizon N increases. Finally, we demonstrate the propagation of these failures into downstream tasks: models fail to enforce uniform answer-position constraints in MCQ generation and systematically violate demographic targets in attribute-constrained text-to-image prompt synthesis. These findings indicate that current LLMs lack a functional internal sampler, necessitating the use of external tools for applications requiring statistical guarantees.
연구 동기 및 목표
- 사용자 지정 1D 분포에서 외부 도구 없이 현재 LLM이 충실하게 샘플링할 수 있는지 평가.
- 다양한 분포 및 복잡도 계층에 걸쳐 샘플링 충실도 정량화.
- 샘플링 프로토콜(배치 대 독립 요청)이 분포 정확도에 어떤 영향을 주는지 조사.
- MCQ 생성 및 속성 제어 프롬프트 합성에서 다운스트림 영향 평가.
제안 방법
- 생성된 분포와 목표 분포 사이의 Wasserstein-1 거리를 사용한 샘플링 충실도 지표 정의.
- 두 프로토콜 사용: Batch Generation (N=1000 샘플을 하나의 응답으로) 및 Independent Requests (N=1000 무상태 호출).
- 3개 복잡도 계층에 걸친 15개 분포에서 11개 모델 벤치마크.
- 연속 분포에 KS 검정 및 이산 분포에 카이제곱 검정, 알파=0.01.
- KL 발산 및 샘플 크기 N 전반에 걸친 상세 수렴 분석으로 보완.

실험 결과
연구 질문
- RQ1 frontier LLM이 외부 라이브러리 없이 지정된 확률 분포에서 내부적으로 정확하게 샘플링할 수 있는가?
- RQ2샘플링 충실도는 분포 복잡도 및 샘플 예산 N에 따라 어떻게 비례하는가?
- RQ3배치 생성이 독립 요청과 달리 진정한 샘플링 능력을 드러내는가?
- RQ4원래 샘플링 실패가 MCQ 구성 및 속성 제어 프롬프트와 같은 다운스트림 생성 작업에 전염되는가?
주요 결과
- 독립 샘플링은 11개 모델 중 10개에서 거의 완전히 실패하며 합격률이 거의 0에 가깝다.
- 배치 생성을 통해서는 13%의 중앙값 합격률로 유효성이 다소 나타나지만, 상위 모델의 분포 세트에서만 40% 합격.
- 샘플링 충실도는 분포의 복잡성이 증가할수록 악화되며 Tier III 분포에서 가장 큰 결함을 보인다.
- Wasserstein-1 거리는 샘플링 수 horizon N 증가와 함께 증가하여 N이 커질수록 역상쇄 및 숨겨진 악화를 시사한다.
- 다운스트림 작업에서 뚜렷한 편향이 나타난다: MCQ 정답 위치가 비균등하고 프롬프트의 인구통계학적 대상이 위반된다.
- LLMs는 기능적 내부 샘플러가 없고 통계적 샘플링 정확성을 보장하기 위해 외부 도구가 필요하다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.