[논문 리뷰] How Much Should We Trust Instrumental Variable Estimates in Political Science? Practical Advice Based on Over 60 Replicated Studies
본 논문은 APSR, AJPS, JOP(2010–2022)에서 IV 기반 연구 67건을 재현하여 도구 강도, 추론 타당성 및 편향을 평가하고, IV 실무를 개선하기 위한 실용적 체크리스트와 소프트웨어를 제시합니다.
Instrumental variable (IV) strategies are widely used in political science to establish causal relationships. However, the identifying assumptions required by an IV design are demanding, and it remains challenging for researchers to assess their validity. In this paper, we replicate 67 papers published in three top journals in political science during 2010-2022 and identify several troubling patterns. First, researchers often overestimate the strength of their IVs due to non-i.i.d. errors, such as a clustering structure. Second, the most commonly used t-test for the two-stage-least-squares (2SLS) estimates often severely underestimates uncertainty. Using more robust inferential methods, we find that around 19-30% of the 2SLS estimates in our sample are underpowered. Third, in the majority of the replicated studies, the 2SLS estimates are much larger than the ordinary-least-squares estimates, and their ratio is negatively correlated with the strength of the IVs in studies where the IVs are not experimentally generated, suggesting potential violations of unconfoundedness or the exclusion restriction. To help researchers avoid these pitfalls, we provide a checklist for better practice.
연구 동기 및 목표
- 2010–2022년 주요 정치학 저널에서 IV 설계가 어떻게 구현되는지 평가합니다.
- 재현 연구에서 도구 강도, 추론 타당성 및 편향의 패턴을 정량화합니다.
- IV 연구 관행을 개선하기 위한 실용적 체크리스트와 소프트웨어를 제공합니다.
- 약한 도구와 가정 위반 간의 상호 작용을 강조하고 신뢰할 수 있는 인과 추론을 강화하기 위한 해결책을 제시합니다.
제안 방법
- APSR, AJPS, JOP에서 2010–2022년의 70개 설계에 대해 67개 IV 결과를 체계적으로 재현합니다.
- 복수의 표준오차 사양(해석적, 강건, 군집 강건, 부트스트랩)에서 1단계 F-통계량을 계산합니다.
- AR 검정, $tF$ 검정, 부트스트랩 방법 및 약한 도구에 대한 유효 F 통계치를 사용하여 추론 타당성을 평가합니다.
- 2SLS 추정치를 OLS 추정치와 비교하여 바이어스 증폭 및 1단계의 강도를 평가합니다.
- 도구를 유형별로 분류합니다(Experiment, Rules/Policy, Theory-based, Weather/Geography, Econometric) 및 그 보급 및 시사점을 분석합니다.

실험 결과
연구 질문
- RQ1강건한 추론 절차로 평가될 때, 상위 정치학 저널에 실린 IV 연구가 강한 도구에 의지하는지 아니면 약한 도구에 의존하는지의 빈도는 얼마입니까?
- RQ22SLS 추정치가 OLS 추정치와 체계적으로 크기에서 다릅니까? 그리고 이것이 도구 강도와 어떻게 관련됩니까?
- RQ3사용되는 일반적인 도구 유형은 무엇이며, 이러한 선택이 인과 주장 타당성에 어떻게 영향을 미칠 수 있습니까?
- RQ4정치학에서 IV 추정치의 신뢰성을 높이는 실용적 단계(추론 방법, 진단)들은 무엇입니까?
- RQ5데이터/코드 가용성과 문서화가 주어졌을 때 IV 발견의 재현가능성은 얼마나 됩니까?
주요 결과
- 70개의 IV 설계 중 효과적인 F-통계량을 사용할 때 11%가 약한 도구에 의존합니다.
- 해석적 SE와 전통적인 t-검정을 사용할 때 IV 추정치의 불확실성을 종종 과소평가합니다.
- AR, 부트스트랩 또는 tF 기반 검정을 사용할 때 5%에서 효과 없음의 영가설을 기각하지 못하는 설계가 17–35%에 달하며, 원래 보고된 SE/ p-값에서의 10%와 대비됩니다.
- 70개 설계 중 68개(97%)에서 2SLS 추정값이 순수한 OLS 추정값보다 크며, 24개 설계(34%)는 최소 다섯 배 이상 큽니다.
- 2SLS와 OLS 크기의 비율은 비실험 설계에서 1단계 강도와 강한 음의 상관을 보이며, 약한 도구와 비정합성 또는 배제 가정 위반 가능성을 시사합니다.
- 대부분의 IV 설계는 이론 기반 도구(≈60%)이며, 그다음으로 기상/지리 및 정책 변화가 차지합니다; 실험은 17.1%를 차지합니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.