[论文解读] How Much Should We Trust Instrumental Variable Estimates in Political Science? Practical Advice Based on Over 60 Replicated Studies
本论文重复分析了APS R、AJPS与JOP(2010–2022)中的67项基于IV的研究,评估工具变量强度、推断有效性与偏差,提供一个实用清单和软件以改进IV实践。
Instrumental variable (IV) strategies are widely used in political science to establish causal relationships. However, the identifying assumptions required by an IV design are demanding, and it remains challenging for researchers to assess their validity. In this paper, we replicate 67 papers published in three top journals in political science during 2010-2022 and identify several troubling patterns. First, researchers often overestimate the strength of their IVs due to non-i.i.d. errors, such as a clustering structure. Second, the most commonly used t-test for the two-stage-least-squares (2SLS) estimates often severely underestimates uncertainty. Using more robust inferential methods, we find that around 19-30% of the 2SLS estimates in our sample are underpowered. Third, in the majority of the replicated studies, the 2SLS estimates are much larger than the ordinary-least-squares estimates, and their ratio is negatively correlated with the strength of the IVs in studies where the IVs are not experimentally generated, suggesting potential violations of unconfoundedness or the exclusion restriction. To help researchers avoid these pitfalls, we provide a checklist for better practice.
研究动机与目标
- 评估2010–2022年主要政治学期刊中IV设计的实现方式。
- 量化重复研究中新出现的工具变量强度、推断有效性与偏差的模式。
- 提供一个实用清单和软件以改进IV研究实践。
- 强调弱工具变量及假设违背如何交互作用,并提出加强可信因果推断的对策。
提出的方法
- 系统性地在2010–2022年于APSR、AJPS和JOP中重复67个结果,覆盖70个设计。
- 在多种标准误设定下计算一阶段F统计量(解析、稳健、簇稳健、自举)。
- 使用AR检验、$tF$检验、自举方法和有效F统计量评估推断有效性以评估弱工具变量。
- 将2SLS估计与OLS估计进行比较,以衡量偏差放大程度及第一阶段强度。
- 将工具变量分为类型(实验、规则/政策、基于理论、天气/地理、计量经济学),并分析其流行度及含义。

实验结果
研究问题
- RQ1在顶级政治学期刊中发表的IV研究在使用稳健推断程序时,强工具变量与弱工具变量的比例有多大?
- RQ22SLS估计在大小上是否系统性地不同于OLS估计,与工具变量强度有何关系?
- RQ3常见的工具变量类型有哪些,这些选择如何影响因果结论的有效性?
- RQ4哪些实际步骤(推断方法、诊断)能够提高政治学中IV估计的可靠性?
- RQ5在数据/代码可获得性与文档化条件下,IV发现的可重复性如何?
主要发现
- 在70个设计中,11%在使用有效F统计量时依赖弱工具变量。
- 使用解析标准误和传统t检验往往低估IV估计的不确定性。
- 在使用AR、自举或基于tF的检验时,5%的显著性水平下无法拒绝无效应的原假设的设计比例为17–35%,而使用原始报告的SEs/p值时为10%。
- 在70个设计中的68个(97%)中,2SLS估计的绝对值通常大于天真OLS估计,其中24个设计(34%)大于五倍。
- 2SLS与OLS量级之比在非实验设计中与第一阶段强度呈强负相关,提示弱工具变量及潜在的非混淆或排他性约束违背。
- 大多数IV设计为理论基础型工具变量(约60%),其次是天气/地理与政策变动;实验设计占17.1%。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。