Skip to main content
QUICK REVIEW

[論文レビュー] A Theoretical Analysis of NDCG Type Ranking Measures

Yining Wang, Liwei Wang|arXiv (Cornell University)|Apr 24, 2013
Information Retrieval and Search Behavior参考文献 29被引用数 254
ひとこと要約

本稿は、NDCG型順序付け指標の理論的分析を提供し、対数的割引を用いた標準NDCGがすべての順序付け関数に対して1に収束するが、依然として一貫した区別性を保ち、優れた順序付けと悪い順序付けを信頼性高く区別できることを示している。本稿では、割引関数の減衰率 $ r^{-1} $ が臨界的であることを特定し、$ r^{-1} $ より遅く減衰する関数のみが区別性を維持することを証明している。また、実際のWeb検索データを用いた実証的検証によって、これらの結果を裏付けている。

ABSTRACT

A central problem in ranking is to design a ranking measure for evaluation of ranking functions. In this paper we study, from a theoretical perspective, the widely used Normalized Discounted Cumulative Gain (NDCG)-type ranking measures. Although there are extensive empirical studies of NDCG, little is known about its theoretical properties. We first show that, whatever the ranking function is, the standard NDCG which adopts a logarithmic discount, converges to 1 as the number of items to rank goes to infinity. On the first sight, this result is very surprising. It seems to imply that NDCG cannot differentiate good and bad ranking functions, contradicting to the empirical success of NDCG in many applications. In order to have a deeper understanding of ranking measures in general, we propose a notion referred to as consistent distinguishability. This notion captures the intuition that a ranking measure should have such a property: For every pair of substantially different ranking functions, the ranking measure can decide which one is better in a consistent manner on almost all datasets. We show that NDCG with logarithmic discount has consistent distinguishability although it converges to the same limit for all ranking functions. We next characterize the set of all feasible discount functions for NDCG according to the concept of consistent distinguishability. Specifically we show that whether NDCG has consistent distinguishability depends on how fast the discount decays, and 1/r is a critical point. We then turn to the cut-off version of NDCG, i.e., NDCG@k. We analyze the distinguishability of NDCG@k for various choices of k and the discount functions. Experimental results on real Web search datasets agree well with the theory.

研究の動機と目的

  • NDCG型順序付け指標の理論的性質、特に異なる順序付け関数を一貫して区別できる能力を調査すること。
  • 標準NDCGがすべての順序付け関数に対して1に収束するにもかかわらず、実際には有効に機能しているという表面的矛盾を解明すること。
  • 一貫した区別性という基準に基づき、NDCGに適した割引関数の集合を特定すること。
  • さまざまな割引関数およびkの値に対して、カットオフNDCG@kの振る舞いとその区別性を分析すること。
  • クリックスルーログと関連性ラベルが付与された実世界のWeb検索データセットを用いて、理論的発見を実証すること。

提案手法

  • 『一貫した区別性』という概念を提唱——これは、ほぼすべてのデータセットにおいてより良い順序付け関数を信頼性高く優先できるようにする形式的基準である。
  • アイテム数nが無限大に近づく際のNDCGの漸近的挙動を分析し、さまざまな割引関数下でのNDCGの収束極限に注目する。
  • NDCGが区別性を維持する理論的条件を導出し、$ r^{-1} $ が臨界的減衰率であることを特定——減衰が$ r^{-1} $ より遅い場合に区別性が保たれ、速い場合には失われる。
  • kをnの割合として固定(例:k = n/5)するNDCG@kを検討し、このようなバージョンが異なる極限に収束する可能性があること、したがって区別性を保持できることを示す。
  • 実際のWeb検索データセット(40件のクエリ、各クエリで5000件のドキュメント)を用い、対数的、$ r^{-1/2} $、$ 2^{-r} $ の割引関数、およびNDCG@kを実証的に評価する。
  • RankSVMおよびListNetモデルを訓練して得た順序付け関数と、ランダムベースラインを用意し、さまざまな割引関数およびk値における区別性をテストする。

実験結果

リサーチクエスチョン

  • RQ1対数的割引を用いた標準NDCGがすべての順序付け関数に対して1に収束するにもかかわらず、実際には優れた順序付けと悪い順序付けを効果的に区別できるのはなぜか?
  • RQ2NDCGが異なる順序付け関数間で一貫した区別性を保つために、割引関数に課される条件は何か?
  • RQ3NDCGが順序付け関数の区別能力を失うようになる割引関数の臨界的減衰率は存在するか?
  • RQ4カットオフバージョンNDCG@kは漸近的にどのように振る舞い、kがnに比例して増加する場合でも区別性を保つのか?
  • RQ5非i.i.d.かつ非ランダムなドキュメント順序を伴う実世界のWeb検索データにおいて、NDCGの挙動に関する理論的予測はどの程度成立するか?

主な発見

  • 対数的割引 $ \frac{1}{\log(1+r)} $ を用いた標準NDCGは、n → ∞ においてすべての順序付け関数に対して1に収束するが、依然として一貫した区別性を保つ。
  • 割引関数 $ r^{-1} $ が臨界的閾値である:割引の減衰が $ r^{-1} $ より遅い場合にNDCGは一貫した区別性を有するが、速い場合には有しない。
  • $ r^{-1} $ よりも遅く減衰する割引関数(例:$ r^{-1/2} $)を用いたNDCGは、異なる順序付け関数に対して異なる極限に収束し、強い区別性を示す。
  • 急激に減衰する割引関数(例:$ 2^{-r} $)を用いたNDCGは収束せず、区別性も低い。さらに、ランダム順序付け関数に対しても高いスコアを割り当てる。
  • k = n/5 で対数的割引を用いたNDCG@kは、異なる順序付け関数に対して異なる極限に収束する。標準NDCGとは異なり、区別性を保持している。
  • クリックスルーログと関連性ラベルが付与された実際のWeb検索データを用いた実験結果は、理論的予測とよく一致しており、区別性が割引の減衰率とkの選択に依存することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。