QUICK REVIEW

[論文レビュー] Identifying And Improving Dataset References In Social Sciences Full Texts

Behnam Ghavimi, Philipp Mayr|arXiv (Cornell University)|Jan 11, 2016

Advanced Text Analysis Techniques参考文献 9被引用数 6

ひとこと要約

本論文は、自然言語処理を用いて社会科学研究論文の本文中に言及されるデータセットを検出・リンクする半自動的手法を提案する。この手法は、da|raレジストリのエントリに一致させるために、データセットの言及を検出する。検出のF-measureは0.854、正しい一致のF-measureは0.679を達成し、学術論文に明示的なデータセットリンクが存在しないという課題を、事前に用意されたコーパスを必要とせずに克服する。

ABSTRACT

Scientific full text papers are usually stored in separate places than their underlying research datasets. Authors typically make references to datasets by mentioning them for example by using their titles and the year of publication. However, in most cases explicit links that would provide readers with direct access to referenced datasets are missing. Manually detecting references to datasets in papers is time consuming and requires an expert in the domain of the paper. In order to make explicit all links to datasets in papers that have been published already, we suggest and evaluate a semi-automatic approach for finding references to datasets in social sciences papers. Our approach doesn't need a corpus of papers (no cold start problem) and it performs well on a small test corpus (gold standard). Our approach achieved an F-measure of 0.854 for identifying references in full texts and an F-measure of 0.679 for finding correct matches of detected references in the da|ra dataset registry.

研究の動機と目的

学術論文に明示的なデータセットリンクが存在しないことによる、データの再利用および再現性の阻害を解消すること。
手作業による検出の限界（時間のかかり、分野の専門知識を要すること）を克服すること。
事前に用意された論文コーパスを必要としない（冷スタート問題を回避する）方法を構築し、本文からのデータセット参照を同定すること。
引用をデータセットレジストリに自動リンクさせることで、研究データセットの検索可能性とアクセス可能性を向上させること。
da|raデータセットレジストリ内の正しいエントリに、データセット参照を高精度かつ高再現率で検出・一致させること。

提案手法

言語的パターンとメタデータの手がかりに基づき、社会科学論文の本文におけるデータセットの言及を検出する自然言語処理技術を用いる。
タイトル、年、および一般的にデータセットを指すために用いられる文脈的表現などのテクスト的手がかりを分析して、データセットの参照を抽出する。
文字列類似度とメタデータの整合性を用いて、検出された参照をda|raデータセットレジストリのエントリに一致させる。
大規模な事前に用意された学習コーパスを必要とせず、小規模なゴールドスタンダードテストコーパスを用いて性能を評価する。
ルールベースの検出とファジー一致を組み合わせた半自動パイプラインを適用し、正確性とスケーラビリティを向上させる。
両検出フェーズおよび一致フェーズにおける適合率と再現率のバランスを取るために、F-measureを評価指標として最適化する。

実験結果

リサーチクエスチョン

RQ1大規模な事前に用意されたコーパスに依存せずに、社会科学論文の本文におけるデータセット参照を高い適合率と再現率で検出できる半自動的手法は存在するか？
RQ2手作業によるアノテーションと比較して、この手法は本文内でのデータセット言及の特定にどの程度効果的か？
RQ3検出されたデータセット参照が、da|raデータセットレジストリのエントリに正しく一致する程度はどの程度か？
RQ4この手法の、参照検出およびレジストリ一致の両方におけるF-measureの性能はどの程度か？
RQ5この手法は、学術データリンク分野のNLPアプローチで一般的に見られる冷スタート問題を克服できるか？

主な発見

本手法は、社会科学論文の本文におけるデータセット参照の検出において、F-measureが0.854に達し、関連する言及を識別する上で優れた性能を示している。
検出された参照をda|raデータセットレジストリの正しいエントリに一致させる際のF-measureは0.679であり、名前の変種や曖昧さの課題にもかかわらず、効果的なリンクを実現している。
大規模な学習論文コーパスを必要としないため、NLPベースのリンクシステムで一般的な冷スタート問題を解決している。
小規模なゴールドスタンダードテストコーパスでも良好な性能を示しており、初期データが限られた状況でもスケーラビリティと信頼性があることが示唆される。
結果から、データセット参照の自動リンクが、社会科学研究におけるデータの検索可能性と再現性を顕著に向上させられると示唆される。
言語的パターン検出とファジー一致の組み合わせにより、学術文書におけるデータセット参照の正確な識別とリンクが可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。