QUICK REVIEW

[論文レビュー] Good practices for a literature survey are not followed by authors while preparing scientific manuscripts

Diego R. Amancio, Maria G. V. Nunes|arXiv (Cornell University)|May 17, 2010

Complex Network Analysis Techniques参考文献 28被引用数 26

ひとこと要約

本論文は、著者が頻繁に二つの主要な文献レビューの実践を無視していることを特定している：内容の類似性に基づいた参考文献の選定と、体系的な引用ネットワーク検索。arXivデータセットを用いた複雑なネットワークモデルと自然言語処理を用いて、著者らは引用された論文と最も類似する作品との間に著しい一貫性の欠如を示している（一貫性指数 0.19–0.47）。また、実際の引用とランダムウォークベースの引用ネットワーク探索との間にほとんど相関が認められず（ピアソン積率相関係数 r = 0.075）、文献レビューの実践が不十分であることが示された。本研究では、類似性ベースおよびネットワークベースの引用推薦を用いる計算的手法「バーチャル科学史（virtual scientometry）」を提案し、科学分野における影響評価の公平性を高め、バイアスを低減することを目的としている。

ABSTRACT

The number of citations received by authors in scientific journals has become a major parameter to assess individual researchers and the journals themselves through the impact factor. A fair assessment therefore requires that the criteria for selecting references in a given manuscript should be unbiased with respect to the authors or the journals cited. In this paper, we advocate that authors should follow two mandatory principles to select papers (later reflected in the list of references) while studying the literature for a given research: i) consider similarity of content with the topics investigated, lest very related work should be reproduced or ignored; ii) perform a systematic search over the network of citations including seminal or very related papers. We use formalisms of complex networks for two datasets of papers from the arXiv repository to show that neither of these two criteria is fulfilled in practice.

研究の動機と目的

著者が科学的論文の参考文献選定において良い実践をとっているかどうかを調査すること。
引用選定が、論文のトピックと内容の類似性に基づいているかどうかを評価すること。
参考文献を編集する際、著者が引用ネットワーク全体を体系的に検索しているかどうかを評価すること。
類似性ベースおよびネットワークベースの引用推薦を用いる計算フレームワーク「バーチャル科学史」を提案し、引用に基づく影響評価の公平性を高め、バイアスを低減すること。
類似性およびネットワーク拡散指標を用いて、著者が見落としているが極めて関連性の高い文献を特定する支援ツールを開発すること。

提案手法

テキスト前処理の後、隣接する語を接続することで、各論文を複雑なネットワークとしてモデル化し、内容の類似度を計算する。
研究分野ごとに二つのネットワークを構築する：(1) 引用ネットワーク（被引用者から引用者への有向エッジ）、(2) 重複ネットワーク（テキスト類似度に基づく無向エッジ）。
「一貫性指数」を計算する。これは、引用された論文のうち、データセット内で最も類似度の高い論文に一致する割合を測る指標であり、最大値は1.0である。
ランダムウォークを用いて引用ネットワーク上で体系的な文献検索をシミュレートし、引用ネットワーク探索行動をモデル化する。
ランダムウォークにおける訪問頻度と実際の引用リスト、および論文のダウンロード数をピアソン相関で比較する。
仮想引用システムを提案する：類似度の閾値に基づいて参考文献を推薦し、引用ネットワーク内でのランダムウォーク頻度を用いて影響を評価する。

実験結果

リサーチクエスチョン

RQ1著者が論文作成の際、分野内で最も内容の類似度が高い論文をどの程度引用しているか。
RQ2実際の引用リストと、体系的かつネットワークベースの文献検索（ランダムウォーク）との相関はどの程度か。
RQ3ランダムウォークによる引用ネットワーク訪問頻度は、実際の引用パターンや論文のダウンロード数とどの程度一致するか。
RQ4類似性およびネットワークベースの推薦システムは、科学的影響評価のためのより公平な代替手段として機能できるか。
RQ5文献レビューの実践が不十分であることは、引用バイアスおよび研究評価にどのような影響を及えるか。

主な発見

内容の類似度と一致する論文の割合を測る「一貫性指数」は、『複雑ネットワーク』分野では0.19–0.29、『遺伝学』分野では0.30–0.47にとどまり、内容の類似性と著しく一致していないことが示された。
実際の引用リストと引用ネットワーク内でのランダムウォーク訪問頻度との間には極めて低い相関が認められ（ピアソン積率相関係数 r = 0.075）、著者が引用ネットワークを体系的に探索していないことが示唆された。
ランダムウォーク訪問頻度と論文のダウンロード数との間の相関も弱く（ピアソン積率相関係数 r = 0.165）、引用ネットワーク探索行動が読者の行動と一致していないことが示された。
本研究では、現在の引用実践が内容の類似性や体系的な検索に基づいていないことが明らかになった。代わりに、新しさや著者とのなじみといった、科学的要因でない要因に基づいている可能性が高い。
類似性ベースおよびネットワークベースの引用推薦を用いる、提案された「バーチャル科学史」フレームワークは、バイアスを低減し、分野を越えて公平な影響評価を可能にする。
結果から、テキスト類似度および引用ネットワーク拡散指標に基づく自動化されたツールが、著者が見落としているが極めて関連性の高い文献を特定するのに役立つ可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。