Skip to main content
QUICK REVIEW

[論文レビュー] 205.2 Off-Topic Memento Toolkit.

Shawn Jones, Michele C. Weigle|arXiv (Cornell University)|Jan 1, 2018
Topic Modeling参考文献 5被引用数 5
ひとこと要約

Off-Topic Memento Toolkit (OTMT) は、複数のテキスト類似度測定法(コサイン類似度、ジャカード距離、Simhash、LSI など)を用いてウェブアーカイブ収集データ内のオフ・トピックなメメントを検出するソフトウェアツールであり、研究者が低価値なメメントを特定・除外できるようにする。各測定法についてゴールドスタンダードデータセットを用いてデフォルトのしきい値を設定し、TF-IDF コサイン類似度を用いることで最大 F1 スコア 0.881 を達成した。

ABSTRACT

Web archive collections are created with a particular purpose in mind. A curator selects seeds, or original resources, which are then captured by an archiving system and stored as archived web pages, or mementos. The systems that build web archive collections are often configured to revisit the same original resource multiple times. This is incredibly useful for understanding an unfolding news story or the evolution of an organization. Unfortunately, over time, some of these original resources can go off-topic and no longer suit the purpose for which the collection was originally created. They can go off-topic due to web site redesigns, changes in domain ownership, financial issues, hacking, technical problems, or because their content has moved on from the original topic. Even though they are off-topic, the archiving system will still capture them, thus it becomes imperative to anyone performing research on these collections to identify these off-topic mementos. Hence, we present the Off-Topic Memento Toolkit, which allows users to detect off-topic mementos within web archive collections. The mementos identified by this toolkit can then be separately removed from a collection or merely excluded from downstream analysis. The following similarity measures are available: byte count, word count, cosine similarity, Jaccard distance, Sørensen-Dice distance, Simhash using raw text content, Simhash using term frequency, and Latent Semantic Indexing via the gensim library. We document the implementation of each of these similarity measures. We possess a gold standard dataset generated by manual analysis, which contains both off-topic and on-topic mementos. Using this gold standard dataset, we establish a default threshold corresponding to the best F1 score for each measure. We also provide an overview of potential future directions that the toolkit may take.

研究の動機と目的

  • ウェブアーカイブ収集データ内のオフ・トピックなメメントの問題に取り組み、データ品質の低下と分析負荷の増大を軽減すること。
  • 研究者がすべてのメメントを手作業で確認せずに、再利用可能でオープンソースのツールキットを提供し、オフ・トピックなメメントを検出可能にする。
  • オフ・トピック検出に適した複数のテキスト類似度測定法(Simhash や LSI の新しい応用を含む)を評価・比較すること。
  • ゴールドスタンダードデータセットに基づき、各類似度測定法のデフォルトのしきい値を設定し、F1 スコアを最大化すること。
  • 低情報価値のメメントを除外できるようにすることで、自動化された収集要約作成およびアシストツールの支援を可能にすること。

提案手法

  • ツールキットは URI-M および URI-T TimeMap メタデータを介して Archive-It 収集データからのウェブアーカイブ・メメントを受信する。
  • 8 種類の類似度測定法を計算する:バイト数、単語数、生テキストおよび TF-IDF ベクトル上のコサイン類似度、ジャカード距離およびソーイェンセン・ディスク距離、および生コンテンツおよび TF 重み付きコンテンツ上の Simhash。
  • 潜在的意味インデクシング(LSI)は gensim ライブラリを用いて実装され、コサイン類似度のためのベクトル表現を生成する。
  • 評価のため、1,000 個のメメント(オン・トピック 500 個、オフ・トピック 500 個)からなるゴールドスタンダードデータセットを手作業で整備した。
  • 各類似度測定法について、ゴールドスタンダードを用いて F1 スコアを最大化するようにしきい値を最適化し、複数回の交差検証を実施する。
  • ツールキットは、選択された測定法と最適化されたしきい値に基づき、オフ・トピックと分類されたメメントのリストを出力する。

実験結果

リサーチクエスチョン

  • RQ1ウェブアーカイブ収集データ内でのオフ・トピックなメメントを特定するうえで、どのテキスト類似度測定法が最も効果的か。
  • RQ2トピックのずれを検出する際、各類似度測定法の F1 スコアを最適化するしきい値は何か。
  • RQ3ジャカード距離や TF-IDF ベクトル上のコサイン類似度といった従来の手法と比較して、Simhash や LSI はどのように性能を発揮するか。
  • RQ4複数の類似度測定法を組み合わせることで、個々の測定法を超える検出性能を向上させられるか。
  • RQ5同じゴールドスタンダードを用いて、本研究のツールキットは、AlNoamany 他 (2017) の先行研究と比較して、どのように性能を発揮するか。

主な発見

  • TF-IDF ベクトル上のコサイン類似度が F1 スコア 0.881 を達成し、他の測定法(単語数:F1 = 0.788、バイト数:F1 = 0.756)を上回った。
  • ジャカード距離測定法は 0.94 のしきい値で F1 スコア 0.651 を達成し、AlNoamany のジャカードインデックス(F1 = 0.538)を顕著に上回った。
  • LSI ベクトル上のコサイン類似度と単語数の組み合わせにより、F1 スコア 0.789 を達成し、複数測定法の統合による利点を示した。
  • 生コンテンツ上の Simhash は F1 スコア 0.578 を達成したが、TF 重み付き Simhash は 0.523 にとどまり、TF 重み付けが検出性能の向上に寄与することが示された。
  • LSI を用いたコサイン類似度は平均で F1 スコア 0.711 を達成したが、非決定的であり、本研究では完全にテストされていない。
  • ゴールドスタンダードに基づき導出されたツールキットのデフォルトしきい値は、任意またはヒューリスティックなしきい値と比較して、顕著に検出精度を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。