Skip to main content
QUICK REVIEW

[論文レビュー] Sources of false positives and false negatives in the STATCHECK algorithm: Reply to Nuijten et al. (2015)

Thomas L. Schmidt|arXiv (Cornell University)|Oct 4, 2016
Data Analysis with R被引用数 1
ひとこと要約

この論文は、科学論文における検定統計量とp値の不一致を検出するRツールであるSTATCHECKアルゴリズムを批判し、重大な欠陥を特定する。その欠陥とは、補正済みp値を処理できない点に起因する。その結果、適切に補正された統計的検定が不一致として誤って特定され、統計的報告の質を評価するうえでのアルゴリズムの信頼性が損なわれる。

ABSTRACT

STATCHECK is an R algorithm designed to scan papers automatically for inconsistencies between test statistics and their associated p values (Nuijten et al., 2016). The goal of this comment is to point out an important and well-documented flaw in this busily applied algorithm: It cannot handle corrected p values. As a result, statistical tests applying appropriate corrections to the p value (e.g., for multiple tests, post-hoc tests, violations of assumptions, etc.) are likely to be flagged as reporting inconsistent statistics, whereas papers omitting necessary corrections are certified as correct. The STATCHECK algorithm is thus valid for only a subset of scientific papers, and conclusions about the quality or integrity of statistical reports should never be based solely on this program.

研究の動機と目的

  • STATCHECKアルゴリズムに内在する根本的な欠陥を特定・暴露し、その信頼性を損なうことを目的とする。
  • アルゴリズムが適切に補正された統計的検定を不一致として誤って特定することを示す。
  • 研究者が科学論文における統計的報告の質を評価するうえで、STATCHECKに過度に依存すべきでないことを警告すること。
  • 発表済みの研究で補正済みp値が使用された場合、誤検出のリスクを強調すること。
  • 統計的報告の整合性を評価する自動化ツールにおける方法論的改善を提言すること。

提案手法

  • 論文は、STATCHECKアルゴリズムの論理的構造と実装を分析し、補正済みp値の処理におけるその限界を特定する。
  • 統計的検定統計量とp値の比較において、統計的検定で適用された補正を考慮しないアルゴリズムの動作を評価する。
  • 多重比較や仮定違反に対する一般的な補正法(ボンフェローニ補正、ホルム=ボンフェローニ補正など)を検討する。
  • 例示を通じて、補正済みp値がSTATCHECKの出力において誤検出を引き起こす仕組みを説明する。
  • 統計理論とアルゴリズムの文書化された実装詳細に基づいた論理的・技術的推論を用いる。
  • 批判は、確立された統計的原則とSTATCHECKソフトウェアの文書化された挙動に根ざしている。

実験結果

リサーチクエスチョン

  • RQ1なぜSTATCHECKアルゴリズムは、補正済みp値を含む論文に適用された際に誤検出を生じるのか?
  • RQ2補正の処理が欠落していることにより、STATCHECKの統計的報告の質に関する評価の信頼性はどの程度損なわれるか?
  • RQ3現在のSTATCHECKバージョンと互換性のない統計的補正の種類は何か?
  • RQ4アルゴリズムは、適切に報告された統計的結果をどの程度誤って不一致と分類してしまうか?
  • RQ5この欠陥が、科学的研究の整合性を監査するための自動化ツールの使用に及ぼす影響は何か?

主な発見

  • STATCHECKアルゴリズムは補正済みp値を正しく処理できず、体系的な誤検出を引き起こす。
  • 多重比較などの正当な補正が適用された統計的検定が、頻繁に不一致としてアルゴリズムによって特定される。
  • 必要な補正が省かれた論文は、STATCHECKによって誤って「正しい」と認定され、誤った信頼性の感覚を生む。
  • アルゴリズムが補正を考慮しないことにより、多数の科学論文における統計的報告の整合性評価の有効性が損なわれる。
  • したがって、統計的報告の質を評価するうえでSTATCHECKに過度に依存することは、科学的に不適切であり、誤解を招く可能性がある。
  • この欠陥は、アルゴリズムの実用性と信頼性を著しく制限する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。