Skip to main content
QUICK REVIEW

[논문 리뷰] Dataset Artefacts are the Hidden Drivers of the Declining Disruptiveness in Science

Vincent Holst, Andres Algaba|arXiv (Cornell University)|2024. 02. 07.
Artificial Intelligence in Healthcare and Education인용 수 8
한 줄 요약

저자들은 시간이 지남에 따라 보고된 과학과 기술의 붕괴(disruption) 감소가 제로 참조 항목(outliers with zero references) 때문에 좌우된다는 것을 보여주며(CD5=1); 이러한 artefacts를 제외하거나 적절히 제어하면 감소가 크게 사라진다.

ABSTRACT

Park et al. [1] reported a decline in the disruptiveness of scientific and technological knowledge over time. Their main finding is based on the computation of CD indices, a measure of disruption in citation networks [2], across almost 45 million papers and 3.9 million patents. Due to a factual plotting mistake, database entries with zero references were omitted in the CD index distributions, hiding a large number of outliers with a maximum CD index of one, while keeping them in the analysis [1]. Our reanalysis shows that the reported decline in disruptiveness can be attributed to a relative decline of these database entries with zero references. Notably, this was not caught by the robustness checks included in the manuscript. The regression adjustment fails to control for the hidden outliers as they correspond to a discontinuity in the CD index. Proper evaluation of the Monte-Carlo simulations reveals that, because of the preservation of the hidden outliers, even random citation behaviour replicates the observed decline in disruptiveness. Finally, while these papers and patents with supposedly zero references are the hidden drivers of the reported decline, their source documents predominantly do make references, exposing them as pure dataset artefacts.

연구 동기 및 목표

  • Park et al.'s disruption (CD) analysis across large citation datasets (papers and patents)을 재현한다.
  • 제로-참조 항목이 CD5 값의 관측된 시간적 감소를 야기하는지 식별한다.
  • 데이터 artefacts에 대한 Park et al.'s 컨트롤(회귀 및 몬테카를로 시뮬레이션)의 견고성을 평가한다.
  • 제로-참조 항목을 artefact-driven한 결론을 피하기 위한 올바른 처리 방법을 제안한다.

제안 방법

  • 타임스탬프가 있는 방향성 인용 네트워크에서 CDt 지수를 정의하여 윈도우 내의 앞으로의 인용을 분류한다(CDt).
  • 제로-참조 논문/특허가 CDt에 불연속성을 만들어 CDt=1(앞으로의 인용이 존재할 때)임을 보여준다.
  • 회귀 모델에 제로-참조 더미를 포함시켜 불연속성을 통제하고 적합도(R2)를 평가한다.
  • degree-preserving 무작위 네트워크에서 관측된 감소가 지속되는지 확인하기 위해 몬테카를로 재배선 분석을 재현한다.
  • 여러 데이터 소스(Web of Science, PatentsView, SciSciNet)을 사용해 artefact-driven 효과를 검증한다.
  • 데이터 소스 전반에 걸쳐 제로-참조 artefact가 나타나는 보조 분석을 제공한다.
Figure 1: Distribution of the $\mathbf{\mathrm{CD}_{5}}$ index with vs without the hidden outliers and its impact on the apparent decline of disruptive science and technology. This figure shows that $\mathrm{CD}_{5}=1$ papers and patents are driving the reported decline in the disruptiveness of scie
Figure 1: Distribution of the $\mathbf{\mathrm{CD}_{5}}$ index with vs without the hidden outliers and its impact on the apparent decline of disruptive science and technology. This figure shows that $\mathrm{CD}_{5}=1$ papers and patents are driving the reported decline in the disruptiveness of scie

실험 결과

연구 질문

  • RQ1제로 참조 항목을 적절히 반영했을 때 평균 CD5의 시간에 따른 감소가 지속되는가?
  • RQ2제로-참조 더미를 포함한 회귀 컨트롤이 CD5의 불연속성을 충분히 다루는가?
  • RQ3제로-참조 artefact를 보존하거나 제거했을 때 몬테카를로 재배선 결과도 감소를 반영하는가?
  • RQ4제로-참조 항목이 진정한 파괴(disintegration) 지표의 메타데이터 오류에 의해 발생한 artefact인가?
  • RQ5관측된 감소가 여러 데이터 소스와 앞으로의 인용 윈도우에서 일관되는가?

주요 결과

  • CD5=1로 나타나는 제로참조 항목에서 비롯된 숨겨진 이상치가 감소 현상에 크게 기여한다.
  • 제로-참조 항목을 제외하거나 이를 적절히 통제하면 논문과 특허의 CD5에서 관찰된 시간적 감소가 크게 제거된다.
  • 회귀 모델에 제로-참조 더미를 포함시키면 적합도가 크게 향상되며(특허/논문에 대해 R2가 각각 0.10/0.15에서 0.52/0.95로 증가).
  • 제로-참조 매칭이 유지되면 재배선된 네트워크에서도 유사한 감소가 나타나 artefact일 가능성을 시사한다.
  • 데이터 소스 전반에 걸쳐 제로 참조 1의 항목들 중 다수가 PDF에 참고문헌을 여전히 포함하고 있어 메타데이터 오류가 artefacts의 원인임을 확인한다.
  • 전반적으로 시간에 따른 disruption의 감소는 실질적인 과학 또는 기술 진보보다는 데이터 품질 개선 및 artefacts에 기인한다.
Figure 2: The reason why the robustness checks in Park et al. [ 1 ] failed to detect the consequences of the hidden outliers. This figure displays how the Park et al. [ 1 ] regression adjustment (models $4$ and $8$ in Supplementary Table $1$ in [ 1 ] ) fails to control for the discontinuous effect o
Figure 2: The reason why the robustness checks in Park et al. [ 1 ] failed to detect the consequences of the hidden outliers. This figure displays how the Park et al. [ 1 ] regression adjustment (models $4$ and $8$ in Supplementary Table $1$ in [ 1 ] ) fails to control for the discontinuous effect o

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.