QUICK REVIEW

[論文レビュー] Errors and secret data in the Italian research assessment exercise. A comment to a reply

Alberto Baccini, Giuseppe De Nicolao|arXiv (Cornell University)|Jul 21, 2017

scientometrics and bibliometrics research参考文献 9被引用数 5

ひとこと要約

本論文は、査読評価と文献計測的評価を比較したイタリアの研究評価（VQR）実験を批判的に検討し、統計的誤り、非開示データ、偏ったサンプリング、再現不能な結果を明らかにした。データの透明性の欠如が、ANVURのデータに依存する多数の学術論文の信頼性を損なっていると指摘し、科学的再現性を確保するための即時のデータ開示を求める。

ABSTRACT

Italy adopted a performance-based system for funding universities that is centered on the results of a national research assessment exercise, realized by a governmental agency (ANVUR). ANVUR evaluated papers by using 'a dual system of evaluation', that is by informed peer review or by bibliometrics. In view of validating that system, ANVUR performed an experiment for estimating the agreement between informed review and bibliometrics. Ancaiani et al. (2015) presents the main results of the experiment. Baccini and De Nicolao (2017) documented in a letter, among other critical issues, that the statistical analysis was not realized on a random sample of articles. A reply to the letter has been published by Research Evaluation (Benedetto et al. 2017). This note highlights that in the reply there are (1) errors in data, (2) problems with 'representativeness' of the sample, (3) unverifiable claims about weights used for calculating kappas, (4) undisclosed averaging procedures; (5) a statement about 'same protocol in all areas' contradicted by official reports. Last but not least: the data used by the authors continue to be undisclosed. A general warning concludes: many recently published papers use data originating from Italian research assessment exercise. These data are not accessible to the scientific community and consequently these papers are not reproducible. They can be hardly considered as containing sound evidence at least until authors or ANVUR disclose the data necessary for replication.

研究の動機と目的

査読評価と文献計測的評価を比較したイタリアのVQR研究評価実験の妥当性に疑問を呈すること。
査読評価と文献計測の一致度に関する統計的分析における根本的なメソッド論的欠陥を浮き彫りにすること。
ANVURの公式報告書およびその後の出版物におけるデータの不整合、非開示されたサンプリング手順、透明性の欠如を暴露すること。
ANVURの非公表データに依存する多数の論文が再現不能であるため、学術コミュニティに警告すること。
科学的厳密性、再現可能性、研究評価システムへの信頼を確保するため、原データの開示を提唱すること。

提案手法

Benedettoら（2017）の回答で報告されたデータと公式のANVUR報告書（ANVUR 2013）との乖離を分析すること。
表ごとの母集団サイズの不一致（例：99,005 対 86,998）および事実誤認（例：4,7583 ではなく 47,583）を特定すること。
特定の文献計測分類が不明瞭な論文が除外された非ランダムなサブサンプリングの影響を評価すること。
kappa統計に影響を与える可能性がある、最終査読スコア（P）を算出するための非開示平均化手順を調査すること。
経済学および統計学分野で用いられたプロトコルと他の分野との比較を通し、一貫性のない方法論的差異を明らかにすること。
PがP1とP2から導出される以上、P1対P2の一致度とF対Pの一致度を比較することは論理的に誤りであることを評価すること。

実験結果

リサーチクエスチョン

RQ1Benedettoら（2017）の回答における統計的およびデータ的不整合は何か？
RQ2特定の文献計測分類が不明瞭な論文が非ランダムに除外された場合、一致度統計の妥当性にどのような影響を与えるか？
RQ32名のパネリストの評価（P1, P2）から最終査読スコア（P）を導出するための平均化手順が非開示である理由は何か？また、その手順が結果にバイアスを及える可能性は？
RQ4公式報告書が、VQR評価において全分野で同一プロトコルが用いられたと主張するのを、どの程度裏付けるか？
RQ5データの透明性の欠如が、ANVURのVQR実験に依拠する論文の再現可能性と科学的信頼性にどのように悪影響を及えるか？

主な発見

Benedettoら（2017）の回答には、表ごとの母集団数の不一致（99,005 から 86,998 に減少）があり、誤った合計に基づいた割合が報告されている。
サブサンプルサイズが一部の表では 7,598、他の表では 7,597 と不一致であり、その差異の解消は行われていない。
分析に用いられたデータは非開示のままであり、科学コミュニティによる結果の再現および検証が不可能である。
2名のパネリストの評価（P1, P2）から最終査読スコア（P）を導出するための平均化手法が非開示されており、kappa統計にバイアスが及ぶ可能性があると懸念される。
全分野で同一プロトコルが用いられたという主張は、公式のANVUR報告書によって裏付けられておらず、経済学および統計学分野ではより好都合な異なる方法が用いられていたことが判明した。
PがP1とP2から導出される以上、P1対Pの一致度とF対Pの一致度を比較することは論理的に誤りであり、P1対Pの一致度は本質的に高くなる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。