Skip to main content
QUICK REVIEW

[論文レビュー] Dataset Artefacts are the Hidden Drivers of the Declining Disruptiveness in Science

Vincent Holst, Andres Algaba|arXiv (Cornell University)|Feb 7, 2024
Artificial Intelligence in Healthcare and Education被引用数 8
ひとこと要約

著者らは、時間とともに報告されている科学技術の破壊的変化の低下が、ゼロ参照の外れ値(CD5=1)によって生じていることを示している。これらのアーティファクトを除外するか適切に制御すれば、低下はほとんど消失する。

ABSTRACT

Park et al. [1] reported a decline in the disruptiveness of scientific and technological knowledge over time. Their main finding is based on the computation of CD indices, a measure of disruption in citation networks [2], across almost 45 million papers and 3.9 million patents. Due to a factual plotting mistake, database entries with zero references were omitted in the CD index distributions, hiding a large number of outliers with a maximum CD index of one, while keeping them in the analysis [1]. Our reanalysis shows that the reported decline in disruptiveness can be attributed to a relative decline of these database entries with zero references. Notably, this was not caught by the robustness checks included in the manuscript. The regression adjustment fails to control for the hidden outliers as they correspond to a discontinuity in the CD index. Proper evaluation of the Monte-Carlo simulations reveals that, because of the preservation of the hidden outliers, even random citation behaviour replicates the observed decline in disruptiveness. Finally, while these papers and patents with supposedly zero references are the hidden drivers of the reported decline, their source documents predominantly do make references, exposing them as pure dataset artefacts.

研究の動機と目的

  • Park et al.のディスラプション(CD)分析を大規模な引用データセット(論文と特許)で再現する。
  • ゼロ参照エントリがCD5値の観測的時系列低下を推進しているかを特定する。
  • データアーティファクトに対するPark et al.の制御(回帰とモンテカルロシミュレーション)の頑健性を評価する。
  • アーティファクト駆動の結論を避けるためのゼロ参照エントリの適切な取扱いを提案する。)

提案手法

  • CDt指数を時間的有向引用ネットワークで定義し、窓内の前方引用を分類する(CDt)。
  • ゼロ参照論文/特許がCDtに不連続性を生み出すことを示す(前方引用が存在すればCDt=1)。
  • ゼロ参照ダミーを含む回归を拡張して不連続性を制御し、モデル適合度(R2)を評価する。
  • 次数を保持したランダムネットワーク下で観測された低下が持続するかを検証するモンテカルロ再配線分析を再現する。
  • 複数のデータ源(Web of Science、PatentsView、SciSciNet)を用いてアーティファクト駆動効果を検証する。
  • ゼロ参照アーティファクトがデータソース全体で見られる追加分析を提供する。
Figure 1: Distribution of the $\mathbf{\mathrm{CD}_{5}}$ index with vs without the hidden outliers and its impact on the apparent decline of disruptive science and technology. This figure shows that $\mathrm{CD}_{5}=1$ papers and patents are driving the reported decline in the disruptiveness of scie
Figure 1: Distribution of the $\mathbf{\mathrm{CD}_{5}}$ index with vs without the hidden outliers and its impact on the apparent decline of disruptive science and technology. This figure shows that $\mathrm{CD}_{5}=1$ papers and patents are driving the reported decline in the disruptiveness of scie

実験結果

リサーチクエスチョン

  • RQ1ゼロ参照項目を適切に考慮した場合、平均CD5の時間的低下は持続するか。
  • RQ2ゼロ参照ダミーを含む回帰制御はCD5の不連続性を適切に解決できるか。
  • RQ3ゼロ参照のアーティファクトを保持または除去した場合、モンテカルロ再配線の結果は低下を同様に反映するか。
  • RQ4ゼロ参照項目は真の破壊の指標というよりメタデータのアーティファクトが大半か。
  • RQ5複数のデータソースと前方引用窓で観察される低下は一貫しているか。

主な発見

  • CD5=1の隠れた外れ値が、ゼロ参照エントリーにより観察される低下に広く寄与している。
  • ゼロ参照項目を除外するか適切に制御することで、論文と特許のCD5の時間的低下はほぼ解消される。
  • 回帰モデルにゼロ参照ダミーを含めると適合度が大幅に改善される(特許/論文でR2が0.10/0.15から0.52/0.95へ)。
  • ゼロ参照対応を保持した場合のランダム再配線ネットワークでも同様の低下が観察され、現実の破壊トレンドではなくアーティファクトであることを示唆する。
  • データソース全体で、CD5=1でゼロ参照を含むitemの多くはPDFに参照を含んでおり、メタデータの誤りがアーティファクトの源泉であることを確認している。
  • 全体として、時間とともの破壊の低下はデータ品質の改善とアーティファクトに起因し、真の科学的・技術的進歩を反映していない。
Figure 2: The reason why the robustness checks in Park et al. [ 1 ] failed to detect the consequences of the hidden outliers. This figure displays how the Park et al. [ 1 ] regression adjustment (models $4$ and $8$ in Supplementary Table $1$ in [ 1 ] ) fails to control for the discontinuous effect o
Figure 2: The reason why the robustness checks in Park et al. [ 1 ] failed to detect the consequences of the hidden outliers. This figure displays how the Park et al. [ 1 ] regression adjustment (models $4$ and $8$ in Supplementary Table $1$ in [ 1 ] ) fails to control for the discontinuous effect o

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。