Skip to main content
QUICK REVIEW

[論文レビュー] On the Use of ArXiv as a Dataset

Colin B. Clement, Matthew Bierbaum|arXiv (Cornell University)|Apr 30, 2019
Scientific Computing and Data Management参考文献 20被引用数 23
ひとこと要約

この論文は、arXiv データセットへの標準化されたアクセスを可能にするオープンソースパイプラインを紹介し、大規模なマルチモーダルおよび関係的モデリングを可能にしている。150万件の論文から670万エッジの引用ネットワークを構築し、本文、要旨、題名、共引用特徴を組み合わせることで、マルチクラス分類の正確性が78.4%(トップ1)に向上し、個々のモodalベースラインを著しく上回ることを示した。

ABSTRACT

The arXiv has collected 1.5 million pre-print articles over 28 years, hosting literature from scientific fields including Physics, Mathematics, and Computer Science. Each pre-print features text, figures, authors, citations, categories, and other metadata. These rich, multi-modal features, combined with the natural graph structure---created by citation, affiliation, and co-authorship---makes the arXiv an exciting candidate for benchmarking next-generation models. Here we take the first necessary steps toward this goal, by providing a pipeline which standardizes and simplifies access to the arXiv's publicly available data. We use this pipeline to extract and analyze a 6.7 million edge citation graph, with an 11 billion word corpus of full-text research articles. We present some baseline classification results, and motivate application of more exciting generative graph models.

研究の動機と目的

  • 大規模なマルチモーダルおよび関係的科学的データモデリングのための標準化され、アクセス可能で比較可能なベンチマークの不足に対処すること。
  • arXivのメタデータ、本文、引用ネットワークを一元的かつオープンソースでダウンロード・正規化・構造化するための統一パイプラインを提供すること。
  • 次世代のグラフニューラルネットワークおよびマルチモーダルモデルのベンチマークデータセットとして、arXivを確立すること。
  • テキストと関係的構造を統合したベースライン分類タスクを通じて、arXiv データセットの有用性を実証すること。
  • 豊富で標準化されたデータセットを用いて、将来の研究がリンク予測、トピックモデリング、テキストセグメンテーション、自動要約の分野で可能になるようにすること。

提案手法

  • 著者は、オープンアーカイブイニシャチブ(OAI)を介したarXivメタデータ収集と、arXivのパブリックAPIからのPDF一括ダウンロードを実行するオープンソースパイプラインを開発した。
  • RawなPDFはプレーンテキストに変換され、内部のarXiv IDが抽出され、全文文書内の参照を特定することで共引用ネットワークが構築された。
  • 著者名は専用スクリプトを用いて正規化され、構造化されたリストに分割され、データの一貫性が向上した。
  • 得られたデータセットには150万件の論文、670万エッジの引用エッジ、110億語の本文コーパス(豊富なメタデータおよび関係的構造を備える)が含まれる。
  • ベースライン分類は、ユニバーサルセンテンスエンコーダーからの埋め込みを用いたロジスティック回帰で実施され、タイトル、要旨、本文、共引用グラフからの特徴を統合した。
  • パワーロウ指数とネットワーク統計は、Pythonパッケージの'networkx'および'powerlaw'を用いて計算され、引用グラフのスケールフリー特性を特徴づけた。

実験結果

リサーチクエスチョン

  • RQ1arXivは、科学的モデリングのための大規模でマルチモーダルかつ関係的ベンチマークデータセットとして、体系的に標準化および構造化可能だろうか?
  • RQ2異なるテキストモダリティ(タイトル、要旨、本文)と関係的特徴(共引用)は、論文の分類タスクにおける予測性能にどのように寄与するのか?
  • RQ3arXiv引用グラフの構造的特性は何か?他の有名な引用ネットワークと比較してどうか?
  • RQ4テキストベースのモデルにグラフ構造を統合することで、科学的文献における分類精度はどの程度向上するのか?
  • RQ5arXivデータセットは、リンク予測、トピックモデリング、テキスト生成といった高度なタスクを、標準的かつ再現可能にサポートできるだろうか?

主な発見

  • arXiv引用グラフには135万ノードと672万エッジの有向エッジがあり、平均次数は9.933で、イン-degreeのパワーロウ指数は2.93、アウト-degreeは3.93であった。
  • 最大の弱連結成分(WCC)はグラフ全体の62%を占めており、やや接続されてはいるが断片的な構造であることが示された。
  • 本文特徴のみで分類タスクのトップ1正答率は64.2%に達し、タイトル(36.6%)や要旨(46.0%)のみの結果を著しく上回った。
  • 共引用特徴を組み込むことで、本文のみの64.2%から、タイトル・要旨・本文・共引用の全特徴を統合した際の78.4%に正答率が向上した。
  • アブレーションスタディの結果、本文特徴を除外すると性能が最も大きく低下し(トップ1正答率59.0%に)、本文特徴が分類に最も寄与していることが示された。
  • 全特徴セットのパープレキシティは2.3に低下し、予測が非常に信頼性が高く正確であることを示した。一方、タイトルのみの場合は12.7であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。