[논문 리뷰] Quantifying non deterministic drift in large language models
이 논문은 두 개의 LLM(gpt-4o-mini와 llama3.1-8b)에서 프롬프트 범주, 배치 유형, 프롬팅 모드, 및 온도에 걸친 기준선의 비결정적 드프트를 측정하고, 온도 0.0에서도 드리프트가 지속됨을 보여주며 렉셜 메트릭의 한계를 강조한다.
Large language models (LLMs) are widely used for tasks ranging from summarisation to decision support. In practice, identical prompts do not always produce identical outputs, even when temperature and other decoding parameters are fixed. In this work, we conduct repeated-run experiments to empirically quantify baseline behavioural drift, defined as output variability observed when the same prompt is issued multiple times under operator-free conditions. We evaluate two publicly accessible models, gpt-4o-mini and llama3.1-8b, across five prompt categories using exact repeats, perturbed inputs, and reuse modes at temperatures of 0.0 and 0.7. Drift is measured using unique output fractions, lexical similarity, and word count statistics, enabling direct comparison across models, prompting modes, and deployment types. The results show that nondeterminism persists even at temperature 0.0, with distinct variability patterns by model size, deployment, and prompt type. We situate these findings within existing work on concept drift, behavioural drift, and infrastructure-induced nondeterminism, discuss the limitations of lexical metrics, and highlight emerging semantic approaches. By establishing a systematic empirical baseline in the absence of stabilisation techniques, this study provides a reference point for evaluating future drift mitigation and control methods.
연구 동기 및 목표
- 운영자 없는 조건에서 LLM의 비결정적 드프트의 기준선 측정을 확립한다.
- 모델 크기, 배치 유형, 프롬프트 모드 및 온도 간의 기준선 드프트를 비교한다.
- 현존하는 개념 드리프트 및 인프라의 비결정성 문헌 맥락에서 드프트 측정치를 위치시킨다.
- 향후 안정화 연구를 뒷받침할 데이터 및 방법론을 제공한다.
제안 방법
- 두 가지 공개 접근 가능 모델을 평가한다: API를 통한 gpt-4o-mini와 로컬에서 실행하는 llama3.1-8b.
- 정확한 반복, 교란 입력, 재사용 모드를 포함한 다섯 가지 프롬프트 카테고리를 두 온도(0.0 및 0.7)에서 테스트한다.
- 각 조합마다 gapfill에 30회 실행하고 작은 배터리 프롬프트에 20회 실행한다.
- 고유 출력 비율, 평균 쌍간 Jaccard 유사도, 단어 수 통계를 사용하여 드프트를 측정한다.
- 렉시컬 드프트 지표의 한계를 논의하고 향후 작업으로 의미론적 지표를 제안한다.

실험 결과
연구 질문
- RQ1개입 없이 프롬프트가 반복될 때 기저 행동 드프트의 크기는 얼마나 되는가?
- RQ2배포 유형(API‑서비스 vs 로컬 개방 가중치)이 기준선 드프트에 어떤 영향을 미치는가?
- RQ3프롬프트 모드(정확한 반복, 교란된 입력, 재사용) 및 온도 설정이 프롬프트 범주 전반의 드프트에 어떤 영향을 미치는가?
- RQ4드프트를 측정하기 위한 렉시컬 지표의 한계는 무엇이며 의미론적 지표가 평가를 어떻게 개선할 수 있는가?
- RQ5분산 예산과 끌어당김(attractor) 영역을 통해 드프트를 해석하여 완화 임계값을 얼마나 이끌어낼 수 있는가?
주요 결과
| 모델 | 온도 | 모드 | 평균 고유 분수 | 평균 자카드 |
|---|---|---|---|---|
| gpt-4o-mini | 0.0 | exact | 0.240 | 0.893 |
| gpt-4o-mini | 0.0 | perturb | 0.572 | 0.632 |
| gpt-4o-mini | 0.0 | reuse | 0.200 | 0.971 |
| gpt-4o-mini | 0.7 | exact | 0.987 | 0.518 |
| gpt-4o-mini | 0.7 | perturb | 1.000 | 0.440 |
| gpt-4o-mini | 0.7 | reuse | 1.000 | 0.706 |
| llama3.1-8b | 0.0 | exact | 0.093 | 0.966 |
| llama3.1-8b | 0.0 | perturb | 0.274 | 0.789 |
| llama3.1-8b | 0.0 | reuse | 0.100 | 0.910 |
| llama3.1-8b | 0.7 | exact | 0.987 | 0.471 |
| llama3.1-8b | 0.7 | perturb | 1.000 | 0.403 |
| llama3.1-8b | 0.7 | reuse | 0.973 | 0.632 |
- 온도 0.0에서도 기준선 드프트가 존재하며, gpt-4o-mini는 약 0.24 비율의 실행에서 다르고, llama3.1-8b는 약 0.09 비율에서 다르다.
- 온도 0.0에서 교란은 드프트를 증가시킨다(gpt-4o-mini 약 0.57의 고유 출력; llama3.1-8b 약 0.27); 재사용은 드프트를 감소시킨다(0.20 및 0.10).
- 온도를 0.7로 올리면 대부분의 실행에서 새로운 출력이 나오고 렉시컬 유사도가 모든 모드에서 0.52 미만으로 떨어지는 거의 완전한 다양성이 나타난다.
- 모델 간에, 0.0에서 정확한 반복의 평균 고유 분수는 각각 0.240(gpt-4o-mini) 및 0.093(llama3.1-8b), 평균 Jaccard는 각각 0.893 및 0.966이다.
- 드프트의 크기는 모델 크기, 배포 방식, 프롬프트 모드에 의존하며 렉시컬 지표는 의미론적 드프트를 포착하는 데 알려진 한계가 있다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.