QUICK REVIEW

[論文レビュー] A Theory of Statistical Inference for Ensuring the Robustness of Scientific Results

Beau Coker, Cynthia Rudin|arXiv (Cornell University)|Apr 23, 2018

Statistical and Computational Modeling参考文献 69被引用数 15

ひとこと要約

この論文は、研究者の分析意思決定における自由度に起因する不確実性を定量化することで、科学的結果の頑健性と再現可能性を向上させる新しい統計的推論理論である「ハッキングインターバル」を提唱する。古典的信頼区間とは異なり、ハッキングインターバルは仮想の母集団や確率論に依存せず、モデル仕様における研究者の自由度に起因する不確実性をより直感的で透明性があり解釈可能な形で測定する。

ABSTRACT

Inference is the process of using facts we know to learn about facts we do not know. A theory of inference gives assumptions necessary to get from the former to the latter, along with a definition for and summary of the resulting uncertainty. Any one theory of inference is neither right nor wrong, but merely an axiom that may or may not be useful. Each of the many diverse theories of inference can be valuable for certain applications. However, no existing theory of inference addresses the tendency to choose, from the range of plausible data analysis specifications consistent with prior evidence, those that inadvertently favor one's own hypotheses. Since the biases from these choices are a growing concern across scientific fields, and in a sense the reason the scientific community was invented in the first place, we introduce a new theory of inference designed to address this critical problem. We introduce hacking intervals, which are the range of a summary statistic one may obtain given a class of possible endogenous manipulations of the data. Hacking intervals require no appeal to hypothetical data sets drawn from imaginary superpopulations. A scientific result with a small hacking interval is more robust to researcher manipulation than one with a larger interval, and is often easier to interpret than a classical confidence interval. Some versions of hacking intervals turn out to be equivalent to classical confidence intervals, which means they may also provide a more intuitive and potentially more useful interpretation of classical confidence intervals.

研究の動機と目的

研究者がデータ解析において自由度を有することにより、偏りが生じ、頑健性に欠け、再現不可能な科学的結果が生じるという懸念が高まっていることに対処すること。
妥当で誠実な分析選択が実証的結論に与える影響を定量化する推論理論を構築すること。
確率論に依存せず、モデルおよび解析仕様に起因する不確実性を反映する、透明性があり解釈可能な古典的信頼区間の代替手段を提供すること。
研究者や読者が、異なるが妥当な分析意思決定のもとで結果がどのように変化するかを評価できるようにすることで、科学的整合性を高めること。
特にモデル依存性や測定されない交絡要因が存在する状況においても、再現可能性と頑健性を支えるフレームワークを形式化すること。

提案手法

ハッキングインターバルには、規定された制約型とテザー型の2種類を提案し、両者とも要約統計量（例：回帰係数）が妥当な分析選択の集合において取り得る範囲を定義する。
モデルクラス、損失関数、予測性能に関する制約を用いて、インターバルの境界を定義し、妥当とされる研究者が考える分析手法に整合させる。
テザー型ハッキングインターバルは、選択されたモデルが観測データに対して小さな損失を達成するという条件のみを要し、すべての分析経路を明示的に列挙する必要がない。
最尤推定の設定において、テザー型ハッキングインターバルがプロファイル尤度信頼区間と数学的に同等であることを示し、確率論を必要としない新しい直感的解釈を提供する。
最小二乗推定にこのフレームワークを適用し、t分布およびカイ分布の性質を用いて、ハッキングインターバル境界の分散の正確な式を導出する。
バプニク＝チェルヴォネンキス理論を用いて、解析の摂動を伴うハッキング済みデータの一般化誤差の境界を導出する。

実験結果

リサーチクエスチョン

RQ1現実の研究において、妥当で誠実なデータ解析選択が、どの程度異なる実証的結論をもたらすのか。
RQ2仮想母集団に依存せず、透明性があり解釈可能で、誠実な分析選択に起因する不確実性を定量化できるか。
RQ3ハッキングインターバルは、解釈性および統計的性質において、古典的信頼区間とどのように比較できるか。
RQ4ハッキングインターバルは、プロファイル尤度区間などの既存の統計的手法と正式に結びつけることができるか。
RQ5分析手順に誠実ではあるが多様な選択（すなわち「ハッキング」）が加えられた場合、モデルの一般化誤差はどの程度になるか。

主な発見

ハッキングインターバルは、誠実な研究者による分析選択に対する頑健性を直接的かつ直感的に測定する手段を提供し、区間が小さいほど頑健性が高いことを示す。
テザー型ハッキングインターバルは、プロファイル尤度信頼区間と数学的に同等であり、古典的区間の確率論に依存しない新しい解釈を提供する。
最小二乗推定におけるATEのハッキングインターバル境界の分散は、残差平方和と自由度に依存し、カイ分布の性質を用いて正確な式が導出された。
個別処置効果推定では、補完性スラックネスを伴う最適化によりハッキングインターバル境界が導出され、最小二乗推定値を中心に対称的な区間が得られる。
個別処置効果のハッキングインターバルの境界点は、スケーリング係数 √(θ − SSE) / ||XΥ|| がt分布の臨界値と標準誤差の積に等しい場合、標準信頼区間の境界と一致する。
VC理論を用いて、複雑さが有界で摂動が加えられた状況下で、真のリスクが経験的リスクに近くなる一般化誤差の境界を導出する。この境界は高い確率で成り立つ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。