QUICK REVIEW

[论文解读] Measures and Mismeasures of Scientific Quality

Sune Lehmann, A.D. Jackson|ArXiv.org|Dec 24, 2005

scientometrics and bibliometrics research被引用 38

一句话总结

本文提出了一套贝叶斯统计框架，用于评估基于引用的科学质量度量的可靠性。研究发现，论文发表数量（按年计）和赫施指数（h-index）缺乏精确性和可靠性，而每篇论文的平均、中位数和最大引用次数则能提供稳健且可量化的作者质量估计，仅需约50篇论文即可实现准确且统计上可靠的科学影响力评估。

ABSTRACT

We present a general Bayesian method for quantifying the statistical reliability of one-dimensional measures of scientific quality based on citation data. Two quality measures used in practice -- ``papers per year'' and ``Hirsch's $h$'' -- are shown to lack the accuracy and precision necessary to be useful. The mean, median and maximum number of citations are on the other hand reliable and permit accurate predictions of future author performance on the basis of as few as 50 publications.

研究动机与目标

开发一种统计上严谨的方法，以评估基于引用的科学质量度量的可靠性。
确定常用度量（如论文发表数量或赫施的h指数）在多大程度上能提供作者质量的准确且精确的估计。
利用贝叶斯推断量化不同引用指标的不确定性与区分能力。
评估这些度量是否能够可靠地对科学家进行排名，或支持学术职位任命决策。
提供一种价值中立、统计上可辩护的框架，用于在不同学科之间进行科学家比较，最大限度减少主观判断。

提出的方法

作者将贝叶斯统计方法应用于SPIRES数据库中5,787名高能物理理论物理学家的引用数据，采用幂律引用分布模型，其中当n ≤ 50时γ ≈ 1.10，当n > 50时γ ≈ 2.70。
他们基于引用记录定义了一个初步的质量指数m，并建立条件概率P(n|m)，即质量为m的作者所发表的论文获得n次引用的概率。
将作者按m值分为十等分（分位数），并基于50篇论文的引用数据，评估其被正确分配至这些分位数的概率。
使用Kullback–Leibler（KL）散度量化不同度量之间的区分性能，评估每种指标在区分作者质量等级方面的表现。
分析比较了六种度量：平均引用数、中位数引用数、最大引用数、论文发表数量（按年计）、赫施h指数（按职业年龄归一化）以及按字母顺序分组作为对照。
该框架通过将相同的条件概率应用于同质子群体，实现跨学科比较，支持基于百分位数的比较，从而在不同学科间实现最小化主观偏见的比较。

实验结果

研究问题

RQ1哪些基于引用的科学质量度量在统计上可靠且精确，可用于评估个体作者的影响力？
RQ2贝叶斯推断是否可用于量化不同科学质量指标的不确定性和区分能力？
RQ3像论文发表数量和赫施h指数这类常用度量在多大程度上无法在科学家之间提供有意义的区分？
RQ4需要多少篇论文才能使基于引用的质量度量产生对作者质量的可靠且统计显著的估计？
RQ5该统计框架是否可应用于跨不同科学领域比较科学家，且最大限度减少价值判断？

主要发现

每篇论文的平均引用数、中位数引用数和最大引用数是科学质量的可靠度量，仅需约50篇论文即可准确预测未来表现。
赫施h指数和论文发表数量无法提供足够的精确度和准确性，因此不适合作为科学质量的主要度量标准。
以90%的置信度正确将作者分配至外部分位数（1–3和8–10）仅需10至50篇论文，具体取决于度量方式；但中间部分位数（4–7）因作者内在质量的峰值分布而表现出较差的区分能力。
KL散度分析证实，平均引用数、中位数引用数和最大引用数度量的区分能力显著高于论文发表数量或h指数。
本研究证明，约50篇论文的引用数据已足够提供有意义的统计不确定性，并可做出关于作者质量的可靠推断。
贝叶斯框架通过在同质子群体中实现基于百分位数的排名，支持跨学科比较，最大限度减少主观偏见。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。