Skip to main content
QUICK REVIEW

[논문 리뷰] Impact of URI canonicalization on memento count

Mat Kelly, Lulwah M. Alkwai|arXiv (Cornell University)|2017. 06. 19.
Web Data Mining and Analysis참고 문헌 1인용 수 4
한 줄 요약

이 논문은 웹 아카이빙에서 URI 캐논리컬라이제이션의 영향을 탐구하며, TimeMap에 포함된 URI-M 중 상당수의 URI-M이 고유한 표현을 반환하기보다는 다른 캡처로 리디렉션됨을 밝혀냈다. google.com의 경우 84.9%의 URI-M이 리디렉션되며, 이는 TimeMap이 비포워딩 캡처의 수를 과대평가하고 있음을 시사하며, 정확한 미멘토 수 계산에 악영향을 미친다.

ABSTRACT

Memento TimeMaps [5] list identifiers for archival web captures (URI-Ms). When some URI-Ms are dereferenced, they redirect to a different URI-M instead of a unique representation at the datetime. This suggests that confidently obtaining an accurate count quantifying the number of non-forwarding captures for an Original Resource URI (URI-R) is not possible using a TimeMap alone and that the magnitude of a TimeMap is not equivalent to the number of representations it identifies. This work represents an abbreviated version of the full technical report describing this phenomena in depth [3]. For google.com we found that 84.9% of the URI-Ms in a TimeMap result in an HTTP redirect when dereferenced. The full study applies this technique to seven other URI-Rs of large Web sites and 13 academic institutions. Using a ratio metric for the number of URI-Ms without redirects to those requiring a redirect when dereferenced, five of the eight large web sites' and two of the thirteen academic institutions' TimeMaps had a ratio of less than one, indicating that more than half of the URI-Ms in these TimeMaps result in redirects when dereferenced.

연구 동기 및 목표

  • 원본 리소스 URI(URI-R)에 대해 비포워딩 웹 캡처의 수를 정확히 정량화하는 데 있어 Memento TimeMaps의 신뢰성을 평가하기 위해.
  • URI 캐논리컬라이제이션이 웹 아카이브에서 미멘토 발견의 일관성과 정확성에 미치는 영향을 조사하기 위해.
  • TimeMap이 리디렉션하는 URI-M을 포함하여 고유 표현의 수를 과대평가하는 정도를 평가하기 위해.
  • 다양한 대규모 웹사이트와 학술 기관에서 비리디렉션과 리디렉션하는 URI-M의 비율을 정량화하기 위해.
  • TimeMap 크기가 실제로 고유한 캡처의 수와 동일시되지 않음을 입증하여, 웹 아카이빙 메트릭스에서 기존의 가정에 도전하기 위해.

제안 방법

  • TimeMap에 나열된 각 URI-M을 디레퍼런싱하여 고유한 표현을 반환하는지 아니면 HTTP 리디렉션을 유발하는지 관찰하기 위해.
  • 각 URI-M 디레퍼런싱에 대한 HTTP 응답 코드를 수집하고 분석하여, 직접 표현 또는 리디렉션로 분류하기 위해.
  • 비율 지표를 계산: TimeMap 내 비리디렉션 URI-M 수를 총 URI-M 수로 나누어 유효한 캡처의 비율을 평가하기 위해.
  • 일반화를 위해 일곱 개의 대규모 웹사이트와 십삼 개의 학술 기관에 이 방법을 적용하기 위해.
  • 비율 지표를 사용하여 절반 이상의 URI-M이 리디렉션되는 TimeMap을 식별하여, URI-R에 대한 고유 캡처 수를 과대평가할 가능성이 있음을 밝히기 위해.

실험 결과

연구 질문

  • RQ1Memento TimeMap의 URI-M 중 얼마나 많은 비율이 직접 표현이 아닌 HTTP 리디렉션을 유발하는가?
  • RQ2다양한 대규모 웹사이트와 학술 기관 간에 비리디렉션과 리디렉션하는 URI-M의 비율은 어떻게 달라지는가?
  • RQ3TimeMap 내 리디렉션의 존재가 미멘토 수 계산의 정확성에 얼마나 영향을 미치는가?
  • RQ4비율 지표가 URI-R에 대한 고유 캡처 수를 과대평가하는 TimeMap을 신뢰성 있게 식별할 수 있는가?
  • RQ5리디렉션하는 URI-M은 TimeMap이 웹 아카이브 완전성의 척도로써의 신뢰성에 어떤 영향을 미치는가?

주요 결과

  • google.com의 경우, TimeMap 내 URI-M의 84.9%가 디레퍼런싱 시 HTTP 리디렉션을 유발하여, 대부분이 고유한 표현을 반환하지 않는다는 것을 시사한다.
  • 연구된 여덟 개의 대규모 웹사이트 중 다섯 곳은 비리디렉션 대비 리디렉션 URI-M 비율이 1 미만이었으며, 이는 절반 이상의 URI-M이 리디렉션되었음을 의미한다.
  • 십삼 개의 학술 기관 중 두 곳도 비율이 1 미만이었으며, 이는 리디렉션하는 URI-M이 상업적 사이트에 국한되지 않음을 시사한다.
  • 이 연구는 TimeMap 크기가 고유한 표현의 수와 동일시되지 않음을 입증하며, 많은 URI-M이 리디렉션을 유도한다는 점을 밝혀냈다.
  • 결과적으로, TimeMap이 비포워딩 캡처의 수를 정확하게 반영한다는 가정을 도전하며, 미멘토 수 계산에 체계적인 문제가 있음을 드러냈다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.