[論文レビュー] Analyzing the Persistence of Referenced Web Resources with Memento
本研究では、Mementoフレームワークを用いて、学術論文に引用されたウェブリソースの恒常性を分析し、アーカイブ済みバージョンの自動発見を実現した。arXivおよびUNTデジタルライブラリの160,000件を超えるURLを対象に分析した結果、arXivの引用URLの45%は依然としてアクセス可能ではあるがアーカイブされておらず、UNTの引用リソースの28%は失われていることが判明し、学術リポジトリにおける能動的ウェブアーカイブの必要性が顕著になった。
In this paper we present the results of a study into the persistence and availability of web resources referenced from papers in scholarly repositories. Two repositories with different characteristics, arXiv and the UNT digital library, are studied to determine if the nature of the repository, or of its content, has a bearing on the availability of the web resources cited by that content. Memento makes it possible to automate discovery of archived resources and to consider the time between the publication of the research and the archiving of the referenced URLs. This automation allows us to process more than 160000 URLs, the largest known such study, and the repository metadata allows consideration of the results by discipline. The results are startling: 45% (66096) of the URLs referenced from arXiv still exist, but are not preserved for future generations, and 28% of resources referenced by UNT papers have been lost. Moving forwards, we provide some initial recommendations, including that repositories should publish URL lists extracted from papers that could be used as seeds for web archiving systems.
研究の動機と目的
- 異なるデジタルリポジトリから引用された学術出版物におけるウェブリソースの長期的恒常性と可用性を評価すること。
- リポジトリの特性やコンテンツタイプが引用URLの生存率に与える影響を調査すること。
- Mementoフレームワークが、引用されたウェブリソースのアーカイブ版を自動で発見する有効性を評価すること。
- リンクロット(リンク断絶)に起因する学術的コミュニケーションにおけるシステム的リスクを特定し、リポジトリに対して実行可能な提言を提示すること。
提案手法
- Mementoフレームワークを活用し、引用されたウェブリソースの時系列的アクセスを自動化した。
- arXivおよびUNTデジタルライブラリの2つの異なるリポジトリから発行された論文に含まれる160,000件を超えるURLを収集・分析した。
- Mementoのタイムトラベルインターフェースを用いて、各引用URLがリトリーブ時における利用可能状態をマッピングした。
- リポジトリタイプおよび学術分野ごとに結果を分類し、リポジトリのメタデータを活用した。
- 自動HTTPリクエストおよびMemento対応クローラーを用いて、URLが時間の経過とともにアーカイブ済みでかつアクセス可能であったかを特定した。
- 統計的分析を用いて、リポジトリ間での恒常性率の比較を行い、コンテンツタイプや出版日と関連する傾向を同定した。
実験結果
リサーチクエスチョン
- RQ1異なるデジタルリポジトリから引用された学術論文におけるウェブリソースのリンクロット率はどの程度か?
- RQ2リポジトリの性質(例:arXiv対UNTデジタルライブラリ)が引用URLの恒常性に与える影響は何か?
- RQ3引用されたウェブリソースはどの程度アーカイブされており、これは学術分野によってどのように異なるか?
- RQ4Mementoフレームワークは、学術文献におけるウェブリソース恒常性の自動評価に効果的に利用可能か?
- RQ5URLの消失が、学術的再現性および研究文脈への長期的アクセスに与える影響は何か?
主な発見
- arXiv論文に引用されたURLの45%(66,096件)は、本研究実施時においてもアクセス可能ではあるが、ウェブアーカイブに保存されておらず、将来的な消失リスクを示している。
- UNTデジタルライブラリの論文に引用されたURLの28%は失われており、同リポジトリの引用リソースにおける顕著なリンクロットが確認された。
- 本研究では、リポジトリの特性およびコンテンツタイプが、引用されたウェブリソースの恒常性に顕著な影響を与えることが判明した。
- Mementoフレームワークは、160,000件を超えるURLに対して大規模かつ自動化されたアーカイブ版分析を成功裏に実現し、恒常性評価のための実用的ツールであることが裏付けられた。
- 結果から、アクセス可能であるURLですらしばしばアーカイブされていないというシステム的問題が浮き彫りになった。これにより、学術的参照は将来的な消失にさらされるリスクが高まっている。
- 本研究は、能動的アーカイブが不可欠であると結論づけ、リポジトリが抽出可能なURLリストを公開することで、自動アーカイブを支援すべきだと提言した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。