[论文解读] Errors and secret data in the Italian research assessment exercise. A comment to a reply
本文批判性地審查了意大利研究評估(VQR)實驗,比較同行評審與文獻計量評估,揭示統計錯誤、未公開數據、偏倚抽樣及無法重現的結果。文章指出,數據透明度的缺乏嚴重損害了依賴ANVUR數據的眾多學術論文的可信度,呼籲立即公開數據以確保科學研究的可重現性。
Italy adopted a performance-based system for funding universities that is centered on the results of a national research assessment exercise, realized by a governmental agency (ANVUR). ANVUR evaluated papers by using 'a dual system of evaluation', that is by informed peer review or by bibliometrics. In view of validating that system, ANVUR performed an experiment for estimating the agreement between informed review and bibliometrics. Ancaiani et al. (2015) presents the main results of the experiment. Baccini and De Nicolao (2017) documented in a letter, among other critical issues, that the statistical analysis was not realized on a random sample of articles. A reply to the letter has been published by Research Evaluation (Benedetto et al. 2017). This note highlights that in the reply there are (1) errors in data, (2) problems with 'representativeness' of the sample, (3) unverifiable claims about weights used for calculating kappas, (4) undisclosed averaging procedures; (5) a statement about 'same protocol in all areas' contradicted by official reports. Last but not least: the data used by the authors continue to be undisclosed. A general warning concludes: many recently published papers use data originating from Italian research assessment exercise. These data are not accessible to the scientific community and consequently these papers are not reproducible. They can be hardly considered as containing sound evidence at least until authors or ANVUR disclose the data necessary for replication.
研究动机与目标
- 挑戰意大利VQR研究評估實驗的有效性,該實驗比較了同行評審與文獻計量評估。
- 突出文獻計量與同行評審之間一致性的統計分析中存在關鍵方法論缺陷。
- 揭露ANVUR官方報告及後續出版物中數據不一致、未公開的抽樣程序以及透明度不足的問題。
- 提醒學術界,許多依賴ANVUR未公開數據的論文無法重現。
- 主張公開原始數據,以確保研究評估體系的科學嚴謹性、可重現性與公信力。
提出的方法
- 分析Benedetto等人(2017)回覆中報告的數據與官方ANVUR報告(ANVUR 2013)之間的差異。
- 識別不同表格中總體規模的不一致(例如,99,005篇對86,998篇)及事實性錯誤(例如,4,7583而非47,583)。
- 評估非隨機抽樣的影響,即排除了文獻計量分類不確定的文章。
- 調查用於計算同行評審分數(P)的未公開平均程序,該程序影響了kappa統計量。
- 比較經濟學與統計學領域所採用的程序與其他領域的差異,揭示與「統一程序」聲稱相矛盾的方法論差異。
- 評估比較F與P一致性的邏輯矛盾,以及P1與P2一致性的邏輯矛盾,因為P是由P1和P2推導而來。
实验结果
研究问题
- RQ1Benedetto等人(2017)回覆中存在哪些統計與數據不一致之處?
- RQ2排除非隨機選擇的文獻計量分類不確定的文章,如何影響一致性的有效性?
- RQ3為何從兩位評審(P1, P2)評估推導最終同行評審分數(P)的平均程序未公開?其可能如何導致結果偏倚?
- RQ4官方報告在多大程度上與「所有研究領域均使用相同程序」的聲稱相矛盾?
- RQ5數據透明度的缺乏如何損害引用ANVUR VQR實驗的論文之可重現性與科學可信度?
主要发现
- Benedetto等人(2017)的回覆中存在不一致的數據,包括不同表格間文章總數從99,005降至86,998,且百分比基於錯誤的總數計算。
- 樣本大小在部分表格中報告為7,598,其他表格則為7,597,且未解決此差異。
- 分析所使用的數據仍未公開,導致科學界無法重現或驗證結果。
- 從兩位評審(P1, P2)評估推導最終同行評審分數(P)的平均方法未公開,引發對kappa統計量可能偏倚的擔憂。
- 「所有研究領域使用相同程序」的聲稱與官方ANVUR報告相矛盾,報告顯示經濟學與統計學使用了不同且更為有利的方法。
- 比較F與P一致性的邏輯存在缺陷,因為P是由P1與P2推導而來,因此P1與P一致性的結果必然更高。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。