Skip to main content
QUICK REVIEW

[論文レビュー] ExpertSeer: a Keyphrase Based Expert Recommender for Digital Libraries

Hung‐Hsuan Chen, Alexander G. Ororbia|arXiv (Cornell University)|Nov 6, 2015
Advanced Text Analysis Techniques参考文献 1被引用数 23
ひとこと要約

ExpertSeer は、キーフレーズ抽出とベイジアンランクを用いて文書コンテンツと引用品質に基づき専門家を特定する、ドメインに依存しないオープンソースのフレームワークであり、デジタル図書館における専門家推薦を目的としている。ベンチマークデータセットにおいて、Precision-at-k(k=3,5,10)で Microsoft Academic\textasciitilde{} と ArnetMiner を上回り、コンピュータサイエンスおよび化学分野において関連する専門家の推薦精度が優れていることが示された。

ABSTRACT

We describe ExpertSeer, a generic framework for expert recommendation based on the contents of a digital library. Given a query term q, ExpertSeer recommends experts of q by retrieving authors who published relevant papers determined by related keyphrases and the quality of papers. The system is based on a simple yet effective keyphrase extractor and the Bayes' rule for expert recommendation. ExpertSeer is domain independent and can be applied to different disciplines and applications since the system is automated and not tailored to a specific discipline. Digital library providers can employ the system to enrich their services and organizations can discover experts of interest within an organization. To demonstrate the power of ExpertSeer, we apply the framework to build two expert recommender systems. The first, CSSeer, utilizes the CiteSeerX digital library to recommend experts primarily in computer science. The second, ChemSeer, uses publicly available documents from the Royal Society of Chemistry (RSC) to recommend experts in chemistry. Using one thousand computer science terms as benchmark queries, we compared the top-n experts (n=3, 5, 10) returned by CSSeer to two other expert recommenders -- Microsoft Academic Search and ArnetMiner -- and a simulator that imitates the ranking function of Google Scholar. Although CSSeer, Microsoft Academic Search, and ArnetMiner mostly return prestigious researchers who published several papers related to the query term, it was found that different expert recommenders return moderately different recommendations. To further study their performance, we obtained a widely used benchmark dataset as the ground truth for comparison. The results show that our system outperforms Microsoft Academic Search and ArnetMiner in terms of Precision-at-k (P@k) for k=3, 5, 10. We also conducted several case studies to validate the usefulness of our system.

研究の動機と目的

  • 手動でのキュレーションなしでスケーラブルかつ自動化された専門家推薦を実現する課題に対処すること。
  • 文書コンテンツと引用データを活用するドメインに依存しないフレームワークを構築すること。
  • キーフレーズ抽出とベイジアン推論を統合することで、関連性スコアと権威スコアの両方を向上させ、推薦精度を向上させること。
  • CSSeer(コンピュータサイエンス)と ChemSeer(化学)という2つの分野特化型実装を通じて、フレームワークの有効性を実証すること。
  • デジタル図書館の提供者や組織がカスタムの専門家レコメンデーションシステムを構築できるように、公開・オープンソース化されたシステムを提供すること。

提案手法

  • 単純で効果的なキーフレーズ抽出法を用いて、文書のタイトルおよび要約からキーフレーズを抽出する。
  • Wikipedia を語彙的リソースとして活用し、類義語や意味的拡張のための関連キーフレーズを特定・収集する。
  • ベイズの定理を適用して、文書の関連性スコアと著者の権威スコアを統合し、専門家のランク付けを行う。
  • 専門家推薦を確率的推論タスクとしてモデル化し、関連性と引用に基づく権威をベイジアン原則に従って重み付けする。
  • 引用データと出版物の質を統合し、特定の分野における著者の専門性と影響力を評価する。
  • 同じフレームワークを用いてスケーラビリティとパフォーマンスを検証する分野特化型レコメンデーションシステム(CSSeer および ChemSeer)を構築する。

実験結果

リサーチクエスチョン

  • RQ1既存の最先端システムと比較して、キーフレーズベースのアプローチは専門家推薦においてどの程度効果的か。
  • RQ2異なる専門家レコメンデーションシステムは、同じクエリ用語に対してどの程度異なる推薦リストを出力するか。
  • RQ3Wikipedia は学術文書分析におけるキーフレーズ候補生成の信頼できるソースとして機能できるか。
  • RQ4ベイズの定理を用いた関連性と権威の統合は、推薦の正確性をどの程度向上させるか。
  • RQ5このフレームワークは、コンピュータサイエンスや化学といった異なる分野へ一般化可能か。

主な発見

  • ExpertSeer は、広く使われているベンチマークデータセットにおいて、Microsoft Academic\textasciitilde{} と ArnetMiner を Precision-at-k(k=3,5,10)で上回り、優れた推薦精度を示した。
  • システムは高いキーフレーズ抽出精度を達成し、CiteSeerX コレクションの95%以上の文書に意味のあるキーフレーズを割り当てた。
  • Microsoft Academic や ArnetMiner といった異なる専門家レコメンデーションシステムは、同じクエリ用語に対して中程度の差異を示す専門家リストを出力しており、それらのランク付け関数に固有のバイアスが存在することが示唆された。
  • Google Scholar のランク付けを模倣するシミュレーテッドシステム GS* は、著者の関連性の高い分野とそれ以外の分野を区別できないため、低い性能を示した。
  • ExpertSeer が生成する関連キーフレーズリストにより、ユーザーは意味的に関連する用語にクエリを拡張することで、より包括的な専門家リストを構築できるようになった。
  • ExpertSeer はスケーラブルで効率的であり、数百万件の文書と著者を処理でき、組織内やデジタル図書館での導入が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。