Skip to main content
QUICK REVIEW

[논문 리뷰] 205.3 The Many Shapes of Archive-It.

Shawn Jones, Alexander C. Nwala|arXiv (Cornell University)|2018. 01. 01.
Web Data Mining and Analysis참고 문헌 8인용 수 3
한 줄 요약

이 논문은 전체 미멘토를 다운로드하지 않고도 Archive-It 웹 아카이브 컬렉션을 이해하기 위해 구조적 메타데이터—예를 들어 컬렉션 성장 곡선과 시드 특성—를 사용하는 것을 제안한다. 시간적 패턴과 시드 다양성을 분석함으로써 저자들은 랜덤 포레스트 분류기를 사용하여 의미적 카테고리 예측에 가중치가 부여된 F1 스코어 0.720을 달성하였으며, 이는 대규모 웹 아카이브에 대해 효율적이고 확장 가능한 특성 분석을 가능하게 한다.

ABSTRACT

Web archives, a key area of digital preservation, meet the needs of journalists, social scientists, historians, and government organizations. The use cases for these groups often require that they guide the archiving process themselves, selecting their own original resources, or seeds, and creating their own web archive collections. We focus on the collections within Archive-It, a subscription service started by the Internet Archive in 2005 for the purpose of allowing organizations to create their own collections of archived web pages, or mementos. Understanding these collections could be done via their user-supplied metadata or via text analysis, but the metadata is applied inconsistently between collections and some Archive-It collections consist of hundreds of thousands of seeds, making it costly in terms of time to download each memento. Our work proposes using structural metadata as an additional way to understand these collections. We explore structural features currently existing in these collections that can unveil curation and crawling behaviors. We adapt the concept of the collection growth curve for understanding Archive-It collection curation and crawling behavior. We also introduce several seed features and come to an understanding of the diversity of resources that make up a collection. Finally, we use the descriptions of each collection to identify four semantic categories of Archive-It collections. Using the identified structural features, we reviewed the results of runs with 20 classifiers and are able to predict the semantic category of a collection using a Random Forest classifier with a weighted average F1 score of 0.720, thus bridging the structural to the descriptive. Our method is useful because it saves the researcher time and bandwidth. Identifying collections by their semantic category allows further downstream processing to be tailored to these categories.

연구 동기 및 목표

  • 대규모 컬렉션에서 시간과 대역폭을 많이 소비하는 기술적 문제를 해결하기 위해 기술적 메타데이터나 콘텐츠 분석을 넘어서 Archive-It 컬렉션을 이해하는 것.
  • 웹 아카이브 컬렉션의 쿠레이션 및 크롤링 행동을 드러내는 구조적 특성들을 규명하는 것.
  • 구조적 메타데이터를 의미론적 의미와 연결하여 유의미한 카테고리로 컬렉션을 분류하는 것.
  • 연구자가 모든 미멘토를 다운로드할 필요를 줄이기 위해 단지 구조적 패턴에 기반한 추론을 가능하게 하는 것.
  • 오직 메타데이터와 구조적 특성만을 사용하여 대규모 웹 아카이브를 체계적으로 분류하는 방법을 개발하는 것.

제안 방법

  • AlSum 등이 제안한 성장 곡선 개념을 Archive-It 컬렉션 내의 미멘토 시간 분포를 모델링하기 위해 응용한다.
  • 시드 경로 깊이 다양성이라는 개념을 도입하여, 쿠레이터가 웹사이트의 최상위 페이지를 선택했는지 아니면 더 깊은 콘텐츠를 대상으로 했는지를 측정한다.
  • 도메인 다양성 측정을 통해 컬렉션이 한 개의 조직에 집중되어 있는지 아니면 다양한 도메인에서 시드를 포함하고 있는지를 평가한다.
  • 컬렉션 설명을 기반으로 네 가지 의미적 카테고리—사건 기반, 조직 기반, 주제 기반, 기관 기반—를 식별한다.
  • 성장 곡선 형태와 시드 다양성 지표 등의 구조적 특성에 기반해 랜덤 포레스트 분류기를 훈련시켜 의미적 카테고리를 예측한다.
  • 20개의 분류기로 구성된 테스트 세트에서 가중 평균 F1 스코어를 사용해 성능을 평가한다.

실험 결과

연구 질문

  • RQ1Archive-It 컬렉션 내에서 미멘토 누적 시간 패턴은 쿠레이션 전략을 어떻게 반영하는가?
  • RQ2시드 다양성과 경로 깊이가 컬렉션 내 쿠레이션의 깊이와 범위를 어느 정도 반영하는가?
  • RQ3구조적 메타데이터만으로도 Archive-It 컬렉션의 의미적 카테고리를 높은 정확도로 예측할 수 있는가?
  • RQ4네 가지로 식별된 의미적 카테고리—사건 기반, 조직 기반, 주제 기반, 기관 기반—에서 성장 곡선과 시드 특성은 어떻게 다름을 보이는가?
  • RQ5오직 구조적 메타데이터만을 사용할 때 기계학습 모델의 컬렉션 의미 예측 성능은 어떠한가?

주요 결과

  • 성장 곡선 분석 결과, 대부분의 컬렉션은 수명 주기의 조기 또는 후기 단계에서 미멘토가 집중적으로 누적되는 비대칭적인 패턴을 보이며, 이는 명백한 쿠레이션 패턴을 반영한다.
  • 시드 경로 깊이 다양성은 컬렉션 간에 상당한 차이를 보이며, 일부 쿠레이터는 최상위 페이지만 선택하는 반면 다른 이들은 웹사이트 내부의 특정 깊은 콘텐츠를 대상으로 한다.
  • 도메인 다양성 지표는 컬렉션이 단일 조직 중심에서부터 넓은 다중 도메인 커버리지까지 다양하게 분포되어 있음을 보여주며, 이는 다양한 쿠레이션 목표를 반영한다.
  • 사건 기반, 조직 기반, 주제 기반, 기관 기반의 네 가지 의미적 카테고리는 각각 다른 아카이브 목적과 행동 양식을 잘 반영한다.
  • 랜덤 포레스트 분류기는 오직 구조적 메타데이터만을 사용하여 컬렉션의 의미적 카테고리를 예측하는 데 가중 평균 F1 스코어 0.720을 달성한다.
  • 이 방법을 통해 연구자는 개별 미멘토 콘텐츠를 다운로드하거나 분석하지 않고도 웹 아카이브 컬렉션의 성격과 목적을 추론할 수 있어 시간과 대역폭을 절약할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.