Skip to main content
QUICK REVIEW

[論文レビュー] Scientific impact quantity and quality: Analysis of two sources of bibliographic data

Richard K. Belew|ArXiv.org|Apr 11, 2005
Meta-analysis and systematic reviews参考文献 11被引用数 58
ひとこと要約

本稿は、203 編の科学的論文について GoogleScholar と Thomson/ISI の被引用回数を比較し、カバー範囲やインデクシング手法の違いにもかかわらず、両者の間に強い相関(R² = 0.5023)が確認された。この結果、GoogleScholar は、被引用回数分析に有用な信頼できる独立したデータソースを提供し、ISI データと併用することで、科学的インパクト評価の信頼性が向上することを示している。

ABSTRACT

Attempts to understand the consequence of any individual scientist's activity within the long-term trajectory of science is one of the most difficult questions within the philosophy of science. Because scientific publications play such as central role in the modern enterprise of science, bibliometric techniques which measure the ``impact'' of an individual publication as a function of the number of citations it receives from subsequent authors have provided some of the most useful empirical data on this question. Until recently, Thompson/ISI has provided the only source of large-scale ``inverted'' bibliographic data of the sort required for impact analysis. In the end of 2004, Google introduced a new service, GoogleScholar, making much of this same data available. Here we analyze 203 publications, collectively cited by more than 4000 other publications. We show surprisingly good agreement between data citation counts provided by the two services. Data quality across the systems is analyzed, and potentially useful complementarities between are considered. The additional robustness offered by multiple sources of such data promises to increase the utility of these measurements as open citation protocols and open access increase their impact on electronic scientific publication practices.

研究の動機と目的

  • GoogleScholar の被引用回数が、長年にわたり確立された Thomson/ISI データベースと比較して信頼性と一貫性を有するかを評価すること。
  • 出版物の種別や著者プロファイルに応じた、両者の文献データベース間のカバレッジおよびデータ品質の系統的差異を特定すること。
  • 学術評価および政策立案におけるより強固な科学的インパクト評価を実現するため、二重データソースによる被引用データの意義を評価すること。
  • 両システムに共通する限界、ならびに著者名のエンコーディング問題や被引用の誤分類といった課題を検討すること。
  • オープンな被引用プロトコルおよびオープンアクセスの可能性を検討し、今後の文献計測学におけるデータ収集の課題を軽減する可能性を模索すること。

提案手法

  • 本研究では、1 つの学際的専門分野から6名の研究者を抽出し、その氏名を GoogleScholar および ISI における検索キーワードとして用いて、被引用論文を抽出した。
  • 両システム間の重複または断片化された記録を解消するため、手動による文献情報の一致確認を実施し、同一論文のあらゆる変種を1つの実体として扱った。
  • 各論文の全解決済み記録を集約して、インデクシングの差異にもかかわらず一貫性のある総合的インパクトを定義した。
  • ピアソン相関とパワーロー・モデリング(GS = 3.1718 × ISI^0.6359)を用いた統計解析により、両システム間の被引用回数を比較した。
  • カイ二乗検定を用いて、ジャーナル、書籍、カンファレンス論文などの出版物種別および著者固有の被引用分布におけるカバレッジの差を評価した。
  • 被引用回数および欠落された被引用の時系列的分析を、出版年ごとに実施し、時間的経過に伴うカバレッジの傾向を評価した。

実験結果

リサーチクエスチョン

  • RQ1同じ科学的論文セットについて、GoogleScholar の被引用回数は Thomson/ISI のものとどの程度一致するか?
  • RQ2ジャーナル、書籍、カンファレンス論文などの出版物種別において、GoogleScholar と ISI 間のカバレッジにどのような主な差異が生じるか?
  • RQ3著者名の表記形式のばらつきや非アスキー文字の使用が、両システムにおける被引用インデクシングの正確性にどの程度影響を及えるか?
  • RQ4片方のシステムで検出されるがもう片方では検出されない「欠落被引用」は、時間的経過および出版物種別においてどのように分布するか?
  • RQ5二重データソースによる被引用データを用いることで、科学的インパクト評価の信頼性をどのように向上できるか?

主な発見

  • GoogleScholar と ISI の被引用回数には、統計的に有意な相関が認められた(R² = 0.5023、p < 0.005)。78 編の重複論文について、両者の間で強い一致が確認された。
  • 両システム間の関係はパワーロー・モデルに従った:GS = 3.1718 × ISI^0.6359。これは、被引用回数のスケーリングが一貫的ではあるが、非線形的であることを示している。
  • GoogleScholar は書籍およびカンファレンス論文のインデクシングにおいて、ISI を上回った。一方、ISI はジャーナル論文のカバレッジが優れていた。
  • 13% の論文が、被引用の断片化により ISI データベースに5件以上のエントリを持つことが判明し、手動インデクシングにおける顕著なデータノイズが生じていることが示された。
  • GoogleScholar は過去20年間の論文においてより優れたカバレッジを示したが、ISI は古くからの論文において優位であった。
  • 両システムとも、著者名に非アスキー文字が含まれる場合の処理に限界を示しており、誤識別や被引用の誤認知のリスクが生じる可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。