QUICK REVIEW

[論文レビュー] Citation entropy and research impact estimation

З. К. Силагадзе|arXiv (Cornell University)|May 7, 2009

Complex Systems and Time Series Analysis参考文献 26被引用数 27

ひとこと要約

本稿では、h-indexの限界（特にh番目を超える被引用回数の変動に鈍感であること）を是正するため、被引用回数のエントロピーに基づくcitationインパクト指標であるs-indexを提案する。情報理論を用いて、被引用回数分布の多様性を定量化し、特に非Zipf型の被引用データにおいて、被引用パターンへの感受性が高まることを示す。一方で、典型的なZipf型条件下ではh-indexは依然として頑健である。

ABSTRACT

A new indicator, a real valued $s$-index, is suggested to characterize a quality and impact of the scientific research output. It is expected to be at least as useful as the notorious $h$-index, at the same time avoiding some its obvious drawbacks. However, surprisingly, the $h$-index is found to be quite a good indicator for majority of real-life citation data with their alleged Zipfian behaviour for which these drawbacks do not show up. The style of the paper was chosen deliberately somewhat frivolous to indicate that any attempt to characterize the scientific output of a researcher by just one number always has an element of a grotesque game in it and should not be taken too seriously. I hope this frivolous style will be perceived as a funny decoration only.

研究の動機と目的

h-indexがh番目を超える被引用回数の変動に鈍感であるという問題を是正し、真のインパクトの差を反映しないことの是正を図ること。
情報理論を用いて、研究者の出版物全体における被引用回数の分布的多様性を捉えるより洗練された指標の開発を目的とすること。
被引用エントロピーに基づく指標（例：s-index）が、非標準的な被引用パターンにおいてh-indexを上回る公平性と感受性を示すかどうかを評価すること。
Zipf型被引用分布下でのh-indexの頑健性を調査し、そのような状況下でs-indexが優位性を示すかどうかを検証すること。
学術評価における単一の数値指標への過剰な依存を警告し、補完的なネットワークベースの分析の重要性を提言すること。

提案手法

シャノンの式を用いて被引用エントロピーSを定義：S = -Σ(pi * ln(pi)) ここで、pi = Ci/Ctot は各論文の正規化された被引用回数である。
s-indexを s = (1/4) * sqrt(Ctot) * exp(S/S0) として導入し、S0 = ln(N) は均一な被引用分布における最大エントロピーである。
カルバック・ライバラー距離を用いてs-indexを再定式化：s ≈ (2/3) * sqrt(Ctot) * exp(-SKL/S0) ここでSKLは均一性からの逸脱を測る。
被引用回数がZipf型分布（Ci = C/i）に従う場合を分析し、h-indexおよびs-indexの理論的スケーリング則を導出する。
Citebaseの実データと理論的予測を比較し、hN ≈ sqrt(Ctot / ln N) および sN ≈ (2/3) * sqrt(Ctot) * ln(√N ln N)/ln N のスケーリング行動を検証する。
シミュレーションおよび実際の被引用データを用いて、s-indexが被引用記録の変化や外れ値論文を含むさまざまな状況下でどのように振る舞うかをテストする。

実験結果

リサーチクエスチョン

RQ1被引用回数がh番目を超えて増加する際、s-indexはh-indexに比べて被引用インパクトの差をどれほど的確に捉えられるか？
RQ2Zipf型被引用分布下で、h-indexはどの程度信頼できる指標であり、なぜこのような状況で良好に機能するのか？
RQ3非一様な被引用パターンにおいて、被引用エントロピーがh-indexを上回る感受性と公平性を持つインパクト測定指標として有効であるか？
RQ4極めて高い被引用回数を記録する外れ値論文は、h-indexおよびs-indexの妥当性にどのような影響を及ぼし、スケーリング則にどのような影響を及けるか？
RQ5s-indexおよびh-indexの理論的スケーリング行動は、Citebaseなどの実世界のリポジトリから得た実データとどの程度整合するか？

主な発見

s-indexは、h番目を超える被引用回数の変化に対してh-indexよりも感受性が高く、h=10の論文の被引用回数が10倍に増加した際、sは6.8から21.5に上昇した。
共同研究での可視性を失った場合、s-indexは4.8から3.0に低下するが、h-indexは変化しない。これは、インパクト低下をより現実的に反映している。
h-indexとは異なり、非最高被引用論文が被引用を獲得した際、s-indexは3.0から6.9に上昇する。これは、広範な被引用の増加に応じてより迅速に反応することを示している。
Zipf型被引用分布（Ci = C/i）下では、h-indexはh ≈ sqrt(Ctot / ln N) にスケーリングし、s-indexはs ≈ (2/3) * sqrt(Ctot) * ln(√N ln N)/ln N にスケーリングする。両者とも実データで検証された。
N=30およびN=130の状況で、S/S0 ≈ 0.86および0.82であった。これは、Zipf型条件下で被引用エントロピーが非常に予測可能であることを示しており、h-indexがこのような状況で有効に機能する理由を裏付けている。
極めて高い被引用回数を記録する外れ値論文はZipf型の振る舞いを破り、スケーリング則を無効にする。しかし、それらを除外することで、両指標の理論的スケーリングが回復する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。