Skip to main content
QUICK REVIEW

[論文レビュー] History by Diversity: Helping Historians search News Archives

Jaspreet Singh, Wolfgang Nejdl|arXiv (Cornell University)|Oct 24, 2018
Information Retrieval and Search Behavior参考文献 38被引用数 25
ひとこと要約

本稿では、ニュースアーカイブにおけるトピック的側面と顕著な時間的期間の両方の面で検索結果を多様化することで、歴史的クエリの意図をモデル化する新規検索アルゴリズムであるHistDivを紹介する。時間的事前分布とアスペクト・タイムモデリングを組み込むことで、特に歴史的に複雑なトピックにおいてもサブトピックのリCALLを向上させるとともに、わずかな精度の低下にもかかわらず、ユーザーの好みを維持する。

ABSTRACT

Longitudinal corpora like newspaper archives are of immense value to historical research, and time as an important factor for historians strongly influences their search behaviour in these archives. While searching for articles published over time, a key preference is to retrieve documents which cover the important aspects from important points in time which is different from standard search behavior. To support this search strategy, we introduce the notion of a Historical Query Intent to explicitly model a historian's search task and define an aspect-time diversification problem over news archives. We present a novel algorithm, HistDiv, that explicitly models the aspects and important time windows based on a historian's information seeking behavior. By incorporating temporal priors based on publication times and temporal expressions, we diversify both on the aspect and temporal dimensions. We test our methods by constructing a test collection based on The New York Times Collection with a workload of 30 queries of historical intent assessed manually. We find that HistDiv outperforms all competitors in subtopic recall with a slight loss in precision. We also present results of a qualitative user study to determine wether this drop in precision is detrimental to user experience. Our results show that users still preferred HistDiv's ranking.

研究の動機と目的

  • ニュースアーカイブから時間的・アスペクト的に多様な概要を求める歴史家が抱える独自の情報ニーズに対応すること。
  • 既存の多様性ベースの検索手法に、歴史的クエリにおける時間的顕著性とアスペクトの関連性を考慮しないという限界があることを特定すること。
  • 歴史的情報探索行動を支援するため、トピック的側面と重要な時間窓を明示的にモデル化する検索モデルを開発すること。
  • 『ニューヨーク・タイムズ』アーカイブから手動で評価された30件の歴史的クエリから構成される新しいテストコレクションを用いて、提案手法を評価すること。
  • HistDivをベースライン手法と比較する定性的ユーザースタディを通じて、ユーザーの好みと認識された概要の質を評価すること。

提案手法

  • 歴史家が重要なサブトピックと重要な歴史的時間期間の両方をカバーする必要があるというニーズをモデル化するため、『アスペクト・タイム多様化』と呼ばれる新規の検索タスクを定義する。
  • 出版時刻と時間表現から得られる時間的事前分布を統合することで、文書の関連性を重みづける、新規のアルゴリズムであるHistDivを提案する。
  • クエリと文書コンテンツからの情報を用いて、顕著な時間窓と主要なアスペクト(例:出来事、エンティティ、テーマ)を特定することで、歴史的クエリの意図をモデル化する。
  • 歴史的に重要な期間にわたる時間的スパンと、明確に区別できるアスペクトの両方のカバレッジをバランスさせる2次元の多様化戦略を適用する。
  • サブトピックのリCALLを最適化しつつ精度を制御する学習-ツー-ランクフレームワークを用いる。パラメータは歴史的関連性シグナルに基づいて調整される。
  • 1987年から2007年までの『ニューヨーク・タイムズ』アーカイブから30件の歴史的クエリを抽出し、関連性とアスペクトカバレッジについて手動で評価したテストコレクションを構築する。

実験結果

リサーチクエスチョン

  • RQ1標準的および時間的多様性ベースラインと比較して、HistDivは顕著な時間期間にわたる多様なアスペクトをどの程度効果的に検索できるか?
  • RQ2既存の検索モデルと比較して、HistDivは歴史的検索タスクにおけるサブトピックのリCALLをどの程度向上させるか?
  • RQ3HistDivにおけるリCALLと精度のトレードオフが、ユーザーの結果品質および概要の完成度に関する認識に悪影響を及えるか?
  • RQ4歴史家と非専門家は、多様化された結果の関連性と有用性をどの程度異なる基準で評価するか?
  • RQ5どのような種類の歴史的クエリにおいて、HistDivは特に優位性を示すか、あるいは限界を示すか?

主な発見

  • HistDivは、関連するアスペクトと時間の両方の空間において、すべての競合手法を大きく上回るサブトピックのリCALLを達成しており、主要な時間期間にわたり多様な歴史的側面をカバーする有効性が裏付けられている。
  • 一部のベースラインと比較してわずかな精度の低下が見られるものの、定性的ユーザースタディにおいて、ユーザーはHistDivの順序付けを好んだ。その理由は、より包括的な概要の質と主要な一次資料の含みが高かったためである。
  • ユーザースタディの結果、非専門家は、特に名前が曖昧なトピック(例:チャーリー・シーリン対マーティン・シーリン)において、不適切な記事に対してより敏感に反応したが、専門家は文脈的な多様性を重視した。
  • ルドルフ・ギウリャーニの政治的、個人的、健康関連の出来事が時間経過で変動するようなトピックでは、HistDivがより包括的かつバランスの取れた概要を提供した。
  • 単一のアスペクトが支配的であるか、アスペクトの多様性が低いクエリでは、HistDivに限界が見られた。この場合、リCALLの向上に伴い、わずかに関連性の低い文書が含まれるようになった。
  • 結果から、リCALLと精度のトレードオフは文脈に依存することが示された。精度の損失が生じるが、それはしばしば結果のカバレッジと一貫性に対するユーザーの認識の向上によって相殺される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。