Skip to main content
QUICK REVIEW

[論文レビュー] Impact of URI canonicalization on memento count

Mat Kelly, Lulwah M. Alkwai|arXiv (Cornell University)|Jun 19, 2017
Web Data Mining and Analysis参考文献 1被引用数 4
ひとこと要約

この論文は、URI正規化がウェブアーカイブにおけるメモントウティングに与える影響を調査し、TimeMapに含まれるURI-Mの大部分が他のキャプチャにリダイレクトすることを明らかにした。特に、google.comでは84.9%のURI-Mがリダイレクトしており、TimeMapが非転送キャプチャの数を過大評価していることが示され、正確なメモントウティング推定の根拠を損なう。

ABSTRACT

Memento TimeMaps [5] list identifiers for archival web captures (URI-Ms). When some URI-Ms are dereferenced, they redirect to a different URI-M instead of a unique representation at the datetime. This suggests that confidently obtaining an accurate count quantifying the number of non-forwarding captures for an Original Resource URI (URI-R) is not possible using a TimeMap alone and that the magnitude of a TimeMap is not equivalent to the number of representations it identifies. This work represents an abbreviated version of the full technical report describing this phenomena in depth [3]. For google.com we found that 84.9% of the URI-Ms in a TimeMap result in an HTTP redirect when dereferenced. The full study applies this technique to seven other URI-Rs of large Web sites and 13 academic institutions. Using a ratio metric for the number of URI-Ms without redirects to those requiring a redirect when dereferenced, five of the eight large web sites' and two of the thirteen academic institutions' TimeMaps had a ratio of less than one, indicating that more than half of the URI-Ms in these TimeMaps result in redirects when dereferenced.

研究の動機と目的

  • オリジナルリソースURI(URI-R)の非転送ウェブキャプチャを正確に数量化するためのMemento TimeMapsの信頼性を評価すること。
  • URI正規化がウェブアーカイブにおけるメモントゥ発見の整合性と正確さに与える影響を調査すること。
  • TimeMapがリダイレクトするURI-Mを含めることで、一意の表現の数をどの程度過大評価しているかを評価すること。
  • 多様な大手ウェブサイトおよび学術機関における、非リダイレクト対リダイレクトURI-Mの比率を定量化すること。
  • TimeMapのサイズが実際に一意のキャプチャの数に等しくないことを示し、ウェブアーカイブメトリクスにおける従来の仮定に疑問を呈すること。

提案手法

  • TimeMapに記載された各URI-Mをドキュメント解決し、一意の表現を返すか、HTTPリダイレクトを発生させるかを観察すること。
  • 各URI-Mのドキュメント解決におけるHTTP応答コードを収集・分析し、直接表現かリダイレクトかに分類すること。
  • 比率指標(TimeMap内の非リダイレクトURI-M数 ÷ 全URI-M数)を計算し、有効なキャプチャの割合を評価すること。
  • 結果を一般化するため、7つの大手ウェブサイトおよび13の学術機関にこの手法を適用すること。
  • 比率指標を用いて、半数以上のURI-MがリダイレクトするTimeMapを特定し、メモントウティングの過大評価の可能性を示すこと。

実験結果

リサーチクエスチョン

  • RQ1Memento TimeMapのURI-Mのどの程度がHTTPリダイレクトを発生させ、直接表現を返さないのか?
  • RQ2異なる大手ウェブサイトおよび学術機関において、非リダイレクト対リダイレクトURI-Mの比率はどのように変動するか?
  • RQ3TimeMapにリダイレクトが存在する場合、メモントウティング推定の正確性はどの程度損なわれるのか?
  • RQ4比率指標は、URI-Rの実際の一意のキャプチャ数を過大評価するTimeMapを信頼性を持って特定できるか?
  • RQ5リダイレクトするURI-Mが、TimeMapがウェブアーカイブの完全性を測る指標としての信頼性に与える影響は何か?

主な発見

  • google.comでは、TimeMapに記載されたURI-Mの84.9%がドキュメント解決時にHTTPリダイレクトを発生させ、大部分が一意の表現を返さないことを示している。
  • 調査対象の8つの大手ウェブサイトのうち5つで、非リダイレクト対リダイレクトURI-Mの比率が1未満であり、半数以上がリダイレクトしていた。
  • 13の学術機関のうち2つでも同様に比率が1未満であり、リダイレクトするURI-Mが商業サイトに限定されないことを示している。
  • 本研究は、TimeMapのサイズが一意の表現の数に等しくないことを示しており、多くのURI-Mがリダイレクトを経由している。
  • 研究結果は、TimeMapが非転送キャプチャの数を正確に反映しているという仮定を揺るがし、メモントウティングにおける体系的な問題を明らかにした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。