Skip to main content
QUICK REVIEW

[논문 리뷰] An analysis of the effects of sharing research data, code, and preprints on citations

Giovanni Colavizza, Lauren Cadwallader|arXiv (Cornell University)|2024. 04. 24.
Academic Publishing and Open Access인용 수 5
한 줄 요약

본 연구는 대규모 OA 데이터 세트를 이용해 Open Science 지표(데이터 공유, 코드 공유, 프리프린트 게시)가 인용 수와 어떤 관련이 있는지 분석하며, 프리프린트와 온라인 데이터 공유가 더 높은 인용과 상관관계가 있지만 코드 공유는 유의미한 효과가 없다는 것을 발견했다.

ABSTRACT

Calls to make scientific research more open have gained traction with a range of societal stakeholders. Open Science practices include but are not limited to the early sharing of results via preprints and openly sharing outputs such as data and code to make research more reproducible and extensible. Existing evidence shows that adopting Open Science practices has effects in several domains. In this study, we investigate whether adopting one or more Open Science practices leads to significantly higher citations for an associated publication, which is one form of academic impact. We use a novel dataset known as Open Science Indicators, produced by PLOS and DataSeer, which includes all PLOS publications from 2018 to 2023 as well as a comparison group sampled from the PMC Open Access Subset. In total, we analyze circa 122'000 publications. We calculate publication and author-level citation indicators and use a broad set of control variables to isolate the effect of Open Science Indicators on received citations. We show that Open Science practices are adopted to different degrees across scientific disciplines. We find that the early release of a publication as a preprint correlates with a significant positive citation advantage of about 20.2% on average. We also find that sharing data in an online repository correlates with a smaller yet still positive citation advantage of 4.3% on average. However, we do not find a significant citation advantage for sharing code. Further research is needed on additional or alternative measures of impact beyond citations. Our results are likely to be of interest to researchers, as well as publishers, research funders, and policymakers.

연구 동기 및 목표

  • Open Science 실천(데이터 공유, 코드 공유, 프리프린트)이 출판물의 인용 수와 더 높게 관련되어 있는지 여부를 평가한다.
  • 각 Open Science 실천의 인용 영향력을 출판-, 저자- 및 분야 요인을 통제하면서 정량화한다.
  • 효과가 학문 분야와 데이터 공유 방식에 따라 어떻게 달라지는지 탐색한다.
  • 결과를 재현 가능하게 만들기 위해 재현 가능한 방법과 데이터를 제공한다.

제안 방법

  • Open Science Indicators(OSI) 데이터 세트 사용(약 12.2만 개의 PLOS 2018–2023 출판물 및 PMC OA Subset 비교군).
  • PMC OA Subset을 인용 소스로 사용하여 출판물 및 저자 수준의 인용 지표를 계산한다.
  • log 변환된 출판물 인용을 OSI 지표와 광범위한 제어 변수(연도, 월, 저자 수, 참조 수, h_index_mean, 저널, ANZSRC 구분 더미) 함수로 모델링한다.
  • 로그(n_cit_tot+1)을 종속 변수로 사용한 기본 회귀(OLS) 및 강건 회귀의 전체 모델과 기본 모델을 추정한다.
  • preprint_match, data_shared/location/repositories_data, code_shared/location, 및 구분 지표를 핵심 독립 변수로 포함한다.
  • 계수의 역변환(탄력도)을 통해 효과를 백분율로 보고한다.
  • 모델 명세와 시간 창(1–3년 인용 창) 간의 강건성 평가를 수행한다.
  • 재현을 위해 데이터와 코드를 공개적으로 제공한다.

실험 결과

연구 질문

  • RQ1Open Science 실천(데이터 공유, 코드 공유, 프리프린트)이 confounding 변수를 통제한 후에도 출판물의 인용 수를 높이는지 여부?
  • RQ2데이터 공유, 코드 공유, 프리프린트의 효과가 학문 분야 및 데이터 공유 방식에 따라 어떻게 달라지는가?
  • RQ3복수의 Open Science 실천이 채택될 때 누적 효과가 있는가?
  • RQ4PLOS/Open Access 맥락을 초과한 일반화 가능성 및 한계는 무엇인가?

주요 결과

  • 프리프린트는 유의미한 양의 인용 이점과 관련이 있으며 약 20.2%(±0.7)이다.
  • 온라인 저장소에 데이터를 공유하는 것은 약 4.3%(±0.8)의 양의 인용 이점과 관련이 있다.
  • 코드 공유는 이 표본에서 통계적으로 유의미한 인용 이점을 보여주지 않는다.
  • 효과는 누적되며, 프리프린트와 온라인 데이터 공유를 모두 가진 논문은 인용이 약 24.5% 증가한다.
  • 학문 분야별 차이가 나타나며 구분 간 효과의 크기와 존재 여부에 차이가 있다.
  • 전체 모델에서 분산의 상당 부분을 설명하는데, R2는 약 0.426이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.