Skip to main content
QUICK REVIEW

[論文レビュー] Diversifying Citation Recommendations

Onur Küçüktunç, Érik Saule|arXiv (Cornell University)|Sep 26, 2012
Text and Document Classification Technologies被引用数 2
ひとこと要約

本稿では、被引用文献に基づく文献検索における方向性に配慮した多様化フレームワークを提案し、個人向けPageRankを、γ-RLMといった新規技術で強化することで、関連性と多様性のバランスを図っている。実験の結果、γ-RLMは効率性および有効性の両面で既存手法を上回り、ユーザーが関連性が高く、多様性に富み、方向性が明確に指定された論文のセットを取得できるようにしている。

ABSTRACT

Literature search is arguably one of the most important phases of the academic and non-academic research. The increase in the number of published papers each year makes manual search inefficient and furthermore insufficient. Hence, automatized methods such as search engines have been of interest in the last thirty years. Unfortunately, these traditional engines use keyword-based approaches to solve the search problem, but these approaches are prone to ambiguity and synonymy. On the other hand, bibliographic search techniques based only on the citation information are not prone to these problems since they do not consider textual similarity. For many particular research areas and topics, the amount of knowledge to humankind is immense, and obtaining the desired information is as hard as looking for a needle in a haystack. Furthermore, sometimes, what we are looking for is a set of documents where each one is different than the others, but at the same time, as a whole we want them to cover all the important parts of the literature relevant to our search. This paper targets the problem of result diversification in citation-based bibliographic search. It surveys a set of techniques which aim to find a set of papers with satisfactory quality and diversity. We enhance these algorithms with a direction-awareness functionality to allow the users to reach either old, well-cited, well-known research papers or recent, less-known ones. We also propose a set of novel techniques for a better diversification of the results. All the techniques considered are compared by performing a rigorous experimentation. The results show that some of the proposed techniques are very successful in practice while performing a search in a bibliographic database.

研究の動機と目的

  • 従来のキーワードベース手法が同義語や曖昧さに苦しむことから、被引用文献に基づく文献検索における結果の多様化の課題に対処すること。
  • テキストの曖昧さを回避するが、しばしば結果の多様性に欠ける単一の引用ネットワークに依存する既存の文献検索技術の改善。
  • 方向性に配慮した推薦を通じて、ユーザーが論文の時間的・顕著性の方向(古典的でよく引用された論文、または最近で認知度の低い論文)を制御できるようにすること。
  • 被引用ネットワークにおける関連性、多様性、ユーザーが設定した検索目的のバランスを取る新しい多様化アルゴリズムの開発と評価。
  • 関連性、多様性、有用性、カバレッジといった複数の指標(relevancy, diversity, usefulness, coverage)を用いた包括的な評価フレームワークを提供し、多様化手法の有効性を評価すること。

提案手法

  • 被引用ネットワークを用いた方向性に配慮した個人向けPageRankフレームワークに、既存のグラフベース多様化手法(例:DIVRANK, DRAGON, GRASSHOPPER)を適応する。
  • 関連性(top-k結果)と多様性(トピックにわたる分散)のトレードオフを制御できる調整可能なγパラメータを備えた、新規アルゴリズムγ-RLMを導入する。
  • 反復的に推薦候補を精錬するクエリ精錬ベース手法(FEED, GSPARSE, GRASSHOPPER)を実装し、多様で高品質な候補を選択する。
  • 既に選択済みのノードと類似度が低いノードを選択するノード選択戦略(例:IL1, IL2)を用い、多様性を促進する。
  • Kucuktuncら(2012a)の手法を応用し、大規模な引用グラフ上で計算を高速化するためのグラフ表現およびインデキシングの最適化を実施する。
  • 関連性、多様性(密度、拡張比)、有用性、平均出版年といった指標を用いたマルチメトリック評価フレームワークを適用し、手法のパフォーマンスを評価する。

実験結果

リサーチクエスチョン

  • RQ1多様化手法は、方向性に配慮した個人向け引用推薦システム内で、どのように効果的に適用できるか?
  • RQ2複数の評価指標を用いて、結果の関連性と多様性のバランスを最も良くとる多様化手法はどれか?
  • RQ3γ-RLMにおける調整可能なパラメータ(γ)は、上位k件の結果(関連性の高い論文)を取得するのと、多様なトピックのカバレッジを確保するのとのトレードオフを効果的に制御できるか?
  • RQ4クエリ精錬ベース手法とグラフベースランク付け手法は、効率性および結果の質においてどのように比較されるか?
  • RQ5標準的な評価指標が単独で適用された場合、ユーザー満足度を十分に捉えられていない場合があるのはどの程度か?

主な発見

  • γ-RLMアルゴリズムは、すべての評価指標で優れたパフォーマンスを達成し、ベースラインおよび最先端の多様化手法を上回っている。
  • DRAGONとγ-RLMは、GRASSHOPPER、GSPARSE、DIVRANKの変種よりも顕著に短い実行時間で、最も高い効率性を示した。
  • GRASSHOPPERとGSPARSEは、kの増加に伴い実行時間が線形に増加し、kが大きい場合のスケーラビリティに劣っていた。
  • FEEDとDRAGONは、高い密度と拡張比の値を示したが、関連性は良好であったため、多様性に欠けていた。
  • IL1とIL2の手法は、それぞれ有用性と関連性が低く、全体的なパフォーマンスが劣っていた。
  • γ-RLM手法は、top-kの関連性と完全な多様性の間のスペクトルを効果的にバランスさせており、γパラメータの調整によりパフォーマンスを自在に制御可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。