QUICK REVIEW

[논문 리뷰] Errors and secret data in the Italian research assessment exercise. A comment to a reply

Alberto Baccini, Giuseppe De Nicolao|arXiv (Cornell University)|2017. 07. 21.

scientometrics and bibliometrics research참고 문헌 9인용 수 5

한 줄 요약

이 논문은 피어 리뷰와 문헌정보 평가를 비교한 이탈리아 연구 평가(VQR) 실험을 철저히 검토하며 통계적 오류, 공개되지 않은 데이터, 편향된 표본 추출, 재현 불가능한 결과를 드러낸다. 데이터 투명성의 부족은 ANVUR의 데이터에 의존하는 수많은 학술 논문의 신뢰성을 약화시키며, 과학적 재현성을 확보하기 위해 즉각적인 공개를 촉구한다.

ABSTRACT

Italy adopted a performance-based system for funding universities that is centered on the results of a national research assessment exercise, realized by a governmental agency (ANVUR). ANVUR evaluated papers by using 'a dual system of evaluation', that is by informed peer review or by bibliometrics. In view of validating that system, ANVUR performed an experiment for estimating the agreement between informed review and bibliometrics. Ancaiani et al. (2015) presents the main results of the experiment. Baccini and De Nicolao (2017) documented in a letter, among other critical issues, that the statistical analysis was not realized on a random sample of articles. A reply to the letter has been published by Research Evaluation (Benedetto et al. 2017). This note highlights that in the reply there are (1) errors in data, (2) problems with 'representativeness' of the sample, (3) unverifiable claims about weights used for calculating kappas, (4) undisclosed averaging procedures; (5) a statement about 'same protocol in all areas' contradicted by official reports. Last but not least: the data used by the authors continue to be undisclosed. A general warning concludes: many recently published papers use data originating from Italian research assessment exercise. These data are not accessible to the scientific community and consequently these papers are not reproducible. They can be hardly considered as containing sound evidence at least until authors or ANVUR disclose the data necessary for replication.

연구 동기 및 목표

피어 리뷰와 문헌정보 평가를 비교한 이탈리아 VQR 연구 평가 실험의 타당성을 도전하기 위해.
피어 리뷰와 문헌정보 평가 간 일치도 분석에서의 심각한 방법론적 결함을 부각하기 위해.
ANVUR의 공식 보고서 및 이후 출판물에서 데이터 일관성 결여, 공개되지 않은 표본 추출 절차, 투명성 부족을 폭 드러내기 위해.
ANVUR의 비공개 데이터에 의존하는 많은 논문들이 재현 불가능하다는 것을 학술 공동체에 경고하기 위해.
과학적 엄밀함, 재현 가능성, 연구 평가 시스템에 대한 신뢰를 확보하기 위해 원천 데이터의 공개를 주장하기 위해.

제안 방법

Benedetto 등(2017)의 답변에서 보고된 데이터와 공식 ANVUR 보고서(ANVUR 2013) 간의 괴리 분석.
표본 크기의 일관성 결여 확인(예: 99,005 vs. 86,998편의 논문), 사실 오류 확인(예: 4,7583 → 47,583로 수정 필요).
불확실한 문헌정보 분류를 가진 논문이 제외된 비랜덤 표본 추출이 일치도 통계의 타당성에 미치는 영향 평가.
피어 리뷰 점수(P)를 계산하기 위해 사용된 공개되지 않은 평균화 절차 분석. 이는 캄파 통계에 영향을 미칠 수 있음.
경제학 및 통계 분야에서 사용된 프로토콜을 다른 분야와 비교하여, 동일한 프로토콜가정에 위배되는 방법론적 차이를 확인.
P가 P1과 P2로부터 유도된 점수이므로 P1 vs. P2 일치도와 F vs. P 일치도를 비교하는 논리적 모순 평가.

실험 결과

연구 질문

RQ1Benedetto 등(2017)의 답변에서 드러나는 통계적 및 데이터 일관성 결함는 무엇인가?
RQ2불확실한 문헌정보 분류를 가진 논문을 비랜덤으로 제외하는 것이 일치도 통계의 타당성에 어떤 영향을 미치는가?
RQ3두 평가자(P1, P2)의 평가에서 최종 피어 리뷰 점수(P)를 유도하기 위한 평균화 절차가 공개되지 않은 이유는 무엇이며, 결과에 어떤 편향을 초래할 수 있는가?
RQ4공식 보고서가 모든 연구 분야에서 동일한 프로토콜를 사용했다는 주장이 어느 정도로 공식 ANVUR 보고서와 모순되는가?
RQ5데이터 투명성 부족이 ANVUR의 VQR 실험에 기반한 논문들의 재현 가능성과 과학적 신뢰성에 어떤 영향을 미치는가?

주요 결과

Benedetto 등(2017)의 답변은 일관성 없는 데이터를 포함하고 있으며, 표본 수가 99,005편에서 86,998편으로 감소했으나 백분율 계산은 잘못된 총계를 기반으로 한다.
표본 크기가 일부 표에서는 7,598편으로, 다른 표에서는 7,597편으로 다르게 기재되어 있으며, 이 격리된 오류는 해결되지 않았다.
분석에 사용된 데이터는 여전히 공개되지 않아 과학 공동체가 결과를 재현하거나 검증할 수 없다.
두 평가자(P1, P2)의 평가에서 최종 피어 리뷰 점수(P)를 유도하기 위한 평균화 방법이 공개되지 않아 캄파 통계에 잠재적 편향이 존재할 수 있다는 우려가 제기된다.
모든 연구 분야에 동일한 프로토콜를 적용했다는 주장은 공식 ANVUR 보고서에 의해 반박되며, 경제학 및 통계 분야는 더 유리한 다른 방법을 사용한 것으로 나타났다.
P가 P1과 P2로부터 유도된 점수이므로 P1 vs. P 일치도는 본질적으로 더 높을 수밖에 없으며, F vs. P 일치도와의 비교는 논리적으로 잘못되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.