QUICK REVIEW

[논문 리뷰] Same Prompt, Different Outcomes: Evaluating the Reproducibility of Data Analysis by LLMs

Jiaxin Cui, Rohan Alexander|arXiv (Cornell University)|2026. 02. 15.

Topic Modeling인용 수 0

한 줄 요약

이 논문은 모델, 프롬프트, 및 온도에 걸친 LLM으로 생성된 데이터 분석의 재현성을 체계적으로 평가하며, 동일한 구성에서도 상당한 변동이 있음을 발견하고 다수의 독립 실행 실행을 권고한다.

ABSTRACT

We systematically evaluate the reproducibility of data analysis conducted by Large Language Models (LLMs). We evaluate two prompting strategies, six models, and four temperature settings, with ten independent executions per configuration, yielding 480 total attempts. We assess the completion, concordance, validity, and consistency of each attempt and find considerable variation in the analytical results even for consistent configurations. This suggests, as with human data analysis, the data analysis conducted by LLMs can vary, even given the same task, data, and settings. Our results mean that if an LLM is being used to conduct data analysis, then it should be run multiple times independently and the distribution of results considered.

연구 동기 및 목표

LLM으로 생성된 데이터 분석의 재현성 연구 필요성과 그것이 과학적 발견에 미치는 함의에 대한 동기를 부여한다.
단일 단계 프롬프트와 다단계 프롬프트, 모델, 온도가 재현성에 어떻게 영향을 미치는지 평가한다.
다섯 단계 데이터 파이프라인을 사용하여 구성 간 완료도, 일치도, 타당성, 일관성을 정량화한다.
LLM 기반 분석에서 다중 실행 실행 및 결과 분포를 고려하는 지침을 제공한다.

제안 방법

Anthropic, OpenAI, Google의 세 공급업체에서 여섯 개 모델을 두 가지 프롬 prompting 전략(단일 단계, 다중 단계)과 네 가지 온도(0.0, 0.3, 0.7, 1.0, GPT-5-mini의 기본값은 1.0)로 평가한다.
구성당 열 번의 독립 실행을 수행하여 구성당 총 480번의 시도를 수행하고, 다섯 단계 데이터 분석 파이프라인을 뉴브런즈윅 약속 데이터에 적용한다.
각 시도에 대해 네 가지 척도(완료도, 합치도, 타당성, 일관성)를 평가하고, 코드 실행, 인간 분석과의 정렬성, 데이터 유형, 회귀 결과를 포함한 출력물을 분석한다.
다섯 단계 파이프라인: CSV 합치기, 재약속 식별, 조직-연도 요약으로 집계, OLS 회귀 수행, 시각화 생성.
다단계 프롬프트는 오류 전파를 초래함을 문서화하며; 단일 단계 프롬프트가 많은 구성에서 더 높은 완료도와 더 일관된 파이프라인을 제공한다.
분석, 표, 도표 작성을 위해 tidyverse 및 tinytable이 포함된 R을 사용한다.

Figure 1 : Evaluation metrics across pipeline steps, models, temperatures, and prompting strategies. Each tile shows the rate for one model-step combination. Rows are grouped by prompting strategy, columns by temperature. Color intensity indicates the metric value from 0 (red) to 1 (green). GPT-5-mi

실험 결과

연구 질문

RQ1같은 작업, 데이터 및 설정이 여러 실행에 걸쳐 사용될 때 LLM으로 생성된 데이터 분석의 재현성은 어느 정도인가?
RQ2오류 전파로 인해 단일 단계 프롬프트가 다단계 프롬프트보다 더 신뢰할 만한 출력을 내는가, 그리고 모델과 온도가 이 영향에 어떤 역할을 하는가?
RQ3LLM으로 생성된 분석이 인간 분석과 어느 정도 일치하는지(일치도) 및 파이프라인 단계 전반에 걸쳐 타당성 기준을 충족하는지?
RQ4LLM 생성 파이프라인 내 데이터 준비 결정이 회귀 기울임값과 t-통계량과 같은 하류 추정에 어떤 영향을 미치는가?

주요 결과

단일 단계 프롬프트는 오류 전파 감소로 인해 일반적으로 다단계 프롬프트보다 높은 완료율을 달성한다.
생성된 코드는 구조적으로 유효하지만 데이터 준비 선택(정렬, 누락, 포함)이 인간 분석과 다르며 하류 변동성을 유발한다.
실행 간에 추정치가 뚜렷한 군집을 형성하며, 대부분의 구성에서 비유의적 t-통계가 나오더라도 기울기와 t-통계는 부호와 크기가 달라진다.
대부분의 구성은 t-통계가 0에 가까운 반면, 일부 단일 단계 구성이 잠재적으로 유의한 결과를 낼 수 있지만, 다수 실행에서의 변동성으로 단일 확정적 결론을 약화시킨다.
실행 간 일관성은 완전하지 않으며, 동일한 구성이라도 서로 다른 출력으로 이어질 수 있어 다중 독립 실행의 필요성을 강조한다.
연구는 결과 분포를 평가하고, 가능하면 변동성을 고려하여 집합체나 다중 공급자 비교를 사용하는 것을 강조한다.

Figure 2 : Comparison of LLM-estimated reappointment rates to those from human analysis at the department-year level. Each point is one department-year observation from one execution. The dashed 45-degree line indicates the estimates are the same. GPT-5-mini is only evaluated at its default temperat

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.