QUICK REVIEW

[論文レビュー] On the Use of ArXiv as a Dataset

Colin B. Clement, Matthew Bierbaum|arXiv (Cornell University)|Apr 30, 2019

Scientific Computing and Data Management参考文献 20被引用数 23

ひとこと要約

この論文は、arXiv データセットへの標準化されたアクセスを可能にするオープンソースパイプラインを紹介し、大規模なマルチモーダルおよび関係的モデリングを可能にしている。150万件の論文から670万エッジの引用ネットワークを構築し、本文、要旨、題名、共引用特徴を組み合わせることで、マルチクラス分類の正確性が78.4％（トップ1）に向上し、個々のモodalベースラインを著しく上回ることを示した。

ABSTRACT

The arXiv has collected 1.5 million pre-print articles over 28 years, hosting literature from scientific fields including Physics, Mathematics, and Computer Science. Each pre-print features text, figures, authors, citations, categories, and other metadata. These rich, multi-modal features, combined with the natural graph structure---created by citation, affiliation, and co-authorship---makes the arXiv an exciting candidate for benchmarking next-generation models. Here we take the first necessary steps toward this goal, by providing a pipeline which standardizes and simplifies access to the arXiv's publicly available data. We use this pipeline to extract and analyze a 6.7 million edge citation graph, with an 11 billion word corpus of full-text research articles. We present some baseline classification results, and motivate application of more exciting generative graph models.

研究の動機と目的

大規模なマルチモーダルおよび関係的科学的データモデリングのための標準化され、アクセス可能で比較可能なベンチマークの不足に対処すること。
arXivのメタデータ、本文、引用ネットワークを一元的かつオープンソースでダウンロード・正規化・構造化するための統一パイプラインを提供すること。
次世代のグラフニューラルネットワークおよびマルチモーダルモデルのベンチマークデータセットとして、arXivを確立すること。
テキストと関係的構造を統合したベースライン分類タスクを通じて、arXiv データセットの有用性を実証すること。
豊富で標準化されたデータセットを用いて、将来の研究がリンク予測、トピックモデリング、テキストセグメンテーション、自動要約の分野で可能になるようにすること。

提案手法

著者は、オープンアーカイブイニシャチブ（OAI）を介したarXivメタデータ収集と、arXivのパブリックAPIからのPDF一括ダウンロードを実行するオープンソースパイプラインを開発した。
RawなPDFはプレーンテキストに変換され、内部のarXiv IDが抽出され、全文文書内の参照を特定することで共引用ネットワークが構築された。
著者名は専用スクリプトを用いて正規化され、構造化されたリストに分割され、データの一貫性が向上した。
得られたデータセットには150万件の論文、670万エッジの引用エッジ、110億語の本文コーパス（豊富なメタデータおよび関係的構造を備える）が含まれる。
ベースライン分類は、ユニバーサルセンテンスエンコーダーからの埋め込みを用いたロジスティック回帰で実施され、タイトル、要旨、本文、共引用グラフからの特徴を統合した。
パワーロウ指数とネットワーク統計は、Pythonパッケージの'networkx'および'powerlaw'を用いて計算され、引用グラフのスケールフリー特性を特徴づけた。

実験結果

リサーチクエスチョン

RQ1arXivは、科学的モデリングのための大規模でマルチモーダルかつ関係的ベンチマークデータセットとして、体系的に標準化および構造化可能だろうか？
RQ2異なるテキストモダリティ（タイトル、要旨、本文）と関係的特徴（共引用）は、論文の分類タスクにおける予測性能にどのように寄与するのか？
RQ3arXiv引用グラフの構造的特性は何か？他の有名な引用ネットワークと比較してどうか？
RQ4テキストベースのモデルにグラフ構造を統合することで、科学的文献における分類精度はどの程度向上するのか？
RQ5arXivデータセットは、リンク予測、トピックモデリング、テキスト生成といった高度なタスクを、標準的かつ再現可能にサポートできるだろうか？

主な発見

arXiv引用グラフには135万ノードと672万エッジの有向エッジがあり、平均次数は9.933で、イン-degreeのパワーロウ指数は2.93、アウト-degreeは3.93であった。
最大の弱連結成分（WCC）はグラフ全体の62％を占めており、やや接続されてはいるが断片的な構造であることが示された。
本文特徴のみで分類タスクのトップ1正答率は64.2％に達し、タイトル（36.6％）や要旨（46.0％）のみの結果を著しく上回った。
共引用特徴を組み込むことで、本文のみの64.2％から、タイトル・要旨・本文・共引用の全特徴を統合した際の78.4％に正答率が向上した。
アブレーションスタディの結果、本文特徴を除外すると性能が最も大きく低下し（トップ1正答率59.0％に）、本文特徴が分類に最も寄与していることが示された。
全特徴セットのパープレキシティは2.3に低下し、予測が非常に信頼性が高く正確であることを示した。一方、タイトルのみの場合は12.7であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。