[論文レビュー] The Availability and Persistence of Web References in D-Lib Magazine
本研究は、1995年から2004年にかけて発表されたD-Lib Magazineの記事に含まれるWeb参照の利用可能性と持続性を分析している。25週間にわたり4,387のURLをテストした結果、研究終了時点で30%のURLが利用不能となっており、URLの半減期は約10年であることが判明。また、.eduや.netドメイン、非標準ポート、非推奨のファイル拡張子などが失敗の予測要因であると特定した。
We explore the availability and persistence of URLs cited in articles published in D-Lib Magazine. We extracted 4387 unique URLs referenced in 453 articles published from July 1995 to August 2004. The availability was checked three times a week for 25 weeks from September 2004 to February 2005. We found that approximately 28% of those URLs failed to resolve initially, and 30% failed to resolve at the last check. A majority of the unresolved URLs were due to 404 (page not found) and 500 (internal server error) errors. The content pointed to by the URLs was relatively stable; only 16% of the content registered more than a 1 KB change during the testing period. We explore possible factors which may cause a URL to fail by examining its age, path depth, top-level domain and file extension. Based on the data collected, we found the half-life of a URL referenced in a D-Lib Magazine article is approximately 10 years. We also found that URLs were more likely to be unavailable if they pointed to resources in the .net, .edu or country-specific top-level domain, used non-standard ports (i.e., not port 80), or pointed to resources with uncommon or deprecated extensions (e.g., .shtml, .ps, .txt).
研究の動機と目的
- 学術的デジタル図書館出版物に引用されたWeb参照の長期的利用可能性と持続性を評価すること。
- 学術的Web参照におけるURLの破壊(リンク腐食)に寄与するシステム的要因を特定すること。
- 現実世界のデジタル図書館の文脈において、リンク劣化の発生頻度とパターンを定量化すること。
- 25週間の監視期間中に、引用されたURLの背後にあるコンテンツの安定性を評価すること。
- デジタル保存および学術出版における引用慣行の改善に役立つ、データ駆動型の知見を提供すること。
提案手法
- 1995年7月から2004年8月に発表された453編のD-Lib Magazine記事から、4,387の固有URLを収集した。
- 2004年9月から2005年2月にかけて、25週間にわたり週3回の割合で、自動化されたURL利用可能性のチェックを実施した。
- HTTPエラーコードを分類し、利用不能の根本的要因を特定した。主に404(見つかりません)および500(内部サーバーエラー)を対象とした。
- 初期および最終のチェックにおけるファイルサイズとチェックサムを比較し、変更量が1 KBを超える場合をフラグ付けすることで、コンテンツの安定性を測定した。
- トップレベルドメイン(TLD)、パスの深さ、ファイル拡張子、ポート使用状況などのURLの特徴を分析し、失敗の予測要因を特定した。
- テストされたURLの故障までの時間データに基づき、生存分析手法を用いてURLの半減期を推定した。
実験結果
リサーチクエスチョン
- RQ1D-Lib Magazineの記事に含まれるWeb参照のうち、25週間の監視期間中にどの程度の割合が利用可能のままであるか?
- RQ2引用されたURLの背後にあるコンテンツは時間経過とともにどのように変化するか? また、どの程度の割合が顕著な変更を受けるか?
- RQ3TLD、ファイル拡張子、またはポート使用状況といった要因の中で、URLの利用不能に最も強く関連するものは何か?
- RQ4D-Lib Magazineの記事に引用されたURLの半減期は推定してどのくらいか?
- RQ5ドメインタイプ(例:.edu、.net、国別ドメイン)や技術的構造に基づいて、URLの利用可能性パターンにどのような差が見られるか?
主な発見
- 初回チェック時時点で約28%のURLが解決不能であり、最終チェック時では30%がアクセス不能であった。これは顕著なリンク腐食を示している。
- D-Lib Magazineの記事に引用されたURLの半減期は約10年であり、この期間内に半数のURLが利用不能になることを意味する。
- URLの背後にあるコンテンツが1 KB以上変更されたケースはわずか16%にとどまり、引用されたコンテンツの大部分が時間経過とともに安定していることが示された。
- 利用不能の主な原因は、HTTPステータスコード404(見つかりません)および500(内部サーバーエラー)であった。
- .edu、.net、および国別トップレベルドメインのURLは、他のドメインと比較して著しく故障しやすかった。
- 非標準ポート(80番ポート以外)およびまれまたは非推奨のファイル拡張子(例:.shtml、.ps、.txt)は、URLの故障を強く予測する要因であった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。