QUICK REVIEW

[論文レビュー] 205.3 The Many Shapes of Archive-It.

Shawn Jones, Alexander C. Nwala|arXiv (Cornell University)|Jan 1, 2018

Web Data Mining and Analysis参考文献 8被引用数 3

ひとこと要約

本論文では、収集の成長曲線やシード特徴量といった構造的メタデータを用いて、すべてのミンメットをダウンロードせずにArchive-Itウェブアーカイブコレクションを理解することを提案する。時間的パターンとシード多様性を分析することで、ランダムフォレスト分類器を用いて意味的カテゴリを予測し、重み付きF1スコア0.720を達成した。これにより、大規模ウェブアーカイブの効率的かつスケーラブルな特徴抽出が可能になる。

ABSTRACT

Web archives, a key area of digital preservation, meet the needs of journalists, social scientists, historians, and government organizations. The use cases for these groups often require that they guide the archiving process themselves, selecting their own original resources, or seeds, and creating their own web archive collections. We focus on the collections within Archive-It, a subscription service started by the Internet Archive in 2005 for the purpose of allowing organizations to create their own collections of archived web pages, or mementos. Understanding these collections could be done via their user-supplied metadata or via text analysis, but the metadata is applied inconsistently between collections and some Archive-It collections consist of hundreds of thousands of seeds, making it costly in terms of time to download each memento. Our work proposes using structural metadata as an additional way to understand these collections. We explore structural features currently existing in these collections that can unveil curation and crawling behaviors. We adapt the concept of the collection growth curve for understanding Archive-It collection curation and crawling behavior. We also introduce several seed features and come to an understanding of the diversity of resources that make up a collection. Finally, we use the descriptions of each collection to identify four semantic categories of Archive-It collections. Using the identified structural features, we reviewed the results of runs with 20 classifiers and are able to predict the semantic category of a collection using a Random Forest classifier with a weighted average F1 score of 0.720, thus bridging the structural to the descriptive. Our method is useful because it saves the researcher time and bandwidth. Identifying collections by their semantic category allows further downstream processing to be tailored to these categories.

研究の動機と目的

大規模コレクションにおいて記述的メタデータやコンテンツ分析に比べて時間的・帯域効率に劣る、Archive-Itコレクションを記述的メタデータやコンテンツ分析を超えて理解すること。
ウェブアーカイブコレクション内のキュレーションおよびクローリング行動を示す構造的特徴を同定すること。
構造的メタデータと記述的意味論を結びつけるために、コレクションを意味のあるカテゴリに分類すること。
研究者がすべてのミンメットをダウンロードする必要を減らすために、構造的パターンに基づく推論を可能にすること。
メタデータと構造的特徴のみを用いて、大規模ウェブアーカイブをスケーラブルに分類する手法を開発すること。

提案手法

AlSumらの成長曲線の概念を拡張し、Archive-Itコレクションにおけるミンメットの時間的分布をモデル化する。
キュレーターがトップレベルのページか、サイト内のより深いコンテンツを選択しているかを測るため、シードパスの深さ多様性を導入する。
コレクションに含まれるドメインの多様性を測定し、複数の異なるドメインからのシードを含むか、特定の組織に集中しているかを評価する。
コレクションの説明文を用いて、イベントベース、組織的、主題的、機関的の4つの意味的カテゴリを特定する。
構造的特徴（成長曲線の形状、シード多様性指標）を用いてランダムフォレスト分類器を学習させ、意味的カテゴリを予測する。
20個の分類器で構成されるテストセットを用いて、重み付き平均F1スコアで性能を評価する。

実験結果

リサーチクエスチョン

RQ1Archive-Itコレクションにおけるミンメット蓄積の時間的パターンは、キュレーション戦略をどのように反映しているか？
RQ2シード多様性とパス深さは、コレクション内のキュレーションの深さと範囲をどの程度反映しているか？
RQ3構造的メタデータのみで、Archive-Itコレクションの意味的カテゴリを高い正確性で予測できるか？
RQ44つの特定された意味的カテゴリごとに、成長曲線とシード特徴はどのように異なるか？
RQ5メタデータのみを用いた機械学習モデルの性能は、構造的メタデータを用いてコレクションの意味を予測する際にどの程度か？

主な発見

成長曲線分析により、大多数のコレクションが歪んだミンメット蓄積を示しており、ライフサイクルの初期または後期に集中していることが判明し、これにより明確なキュレーションパターンが明らかになった。
シードパス深さ多様性はコレクション間で顕著に異なることが判明し、一部のキュレーターはトップレベルのページのみを選択している一方、他のキュレーターはサイト内での特定のコンテンツを標的としていることが分かった。
ドメイン多様性指標により、コレクションは単一組織に集中するものから広範な複数ドメインカバレッジまで多様であることが示され、異なるキュレーション目的を反映していることが分かった。
イベントベース、組織的、主題的、機関的の4つの意味的カテゴリは、それぞれ異なるアーカイブ目的と行動を的確に捉えている。
ランダムフォレスト分類器は、構造的メタデータのみを用いて、コレクションの意味的カテゴリを予測する際、重み付き平均F1スコア0.720を達成した。
この手法により、研究者が個々のミンメットコンテンツをダウンロードまたは分析することなく、ウェブアーカイブコレクションの性質と目的を推論できるようになり、時間的・帯域的コストを大幅に削減できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。