QUICK REVIEW

[論文レビュー] Posthoc Interpretability of Learning to Rank Models using Secondary Training Data

Jaspreet Singh, Avishek Anand|arXiv (Cornell University)|Jun 29, 2018

Explainable Artificial Intelligence (XAI)参考文献 6被引用数 34

ひとこと要約

本論文では、ブラックボックスランカーの予測から生成された二次的学習データに基づいて、解釈可能な木ベースのモデルを学習することで、トレーニング済みのラーニング・トゥ・ランク（LTR）モデルの後処理的、モデルに依存しない解釈を提案する。解釈可能なコンテンツベースの特徴量のみを用いても、特にリストワイズ学習の下では、元のモデルと高い相関を達成しており、特徴量が元のものから部分的に制限されていても、十分な二次的データがあれば忠実でグローバルな説明が可能であることを示している。

ABSTRACT

Predictive models are omnipresent in automated and assisted decision making scenarios. But for the most part they are used as black boxes which output a prediction without understanding partially or even completely how different features influence the model prediction avoiding algorithmic transparency. Rankings are ordering over items encoding implicit comparisons typically learned using a family of features using learning-to-rank models. In this paper we focus on how best we can understand the decisions made by a ranker in a post-hoc model agnostic manner. We operate on the notion of interpretability based on explainability of rankings over an interpretable feature space. Furthermore we train a tree based model (inherently interpretable) using labels from the ranker, called secondary training data to provide explanations. Consequently, we attempt to study how well does a subset of features, potentially interpretable, explain the full model under different training sizes and algorithms. We do experiments on the learning to rank datasets with 30k queries and report results that serve show in certain settings we can learn a faithful interpretable ranker.

研究の動機と目的

トレーニングデータにアクセスできない状態でも、ブラックボックス型ラーニング・トゥ・ランク（LTR）モデルの後処理的解釈を可能にすること。
より単純で解釈可能なモデルが、複雑な事前学習済みLTRモデルのランク付け行動を忠実に再現できるかどうかを調査すること。
学習データ量、学習アルゴリズムの種別（ペairwise対比 vs. リストワイズ）、特徴量サブセット選択の影響が、解釈の正確性に与える影響を評価すること。
コンテンツベースの特徴量を用いて、人間が理解可能な行動可能な説明を、ランク付け意思決定に対して提供すること。

提案手法

大規模なテストクエリ・ドキュメントペアのセットに対して、事前学習済みのブラックボックス型LTRモデルの予測（ランク付け）を集めて、二次的学習データを生成する。
解釈可能な特徴量（例：語の存在、メタデータ）のサブセットのみを用いて、新しい解釈可能な木ベースのモデル（例：勾配ブースティング木）をこの二次的データ上で学習する。
標準的なLTR評価指標（NDCG、Precision@10、ケンダールのtau（τ）、およびτ@10）を用いて、解釈可能なモデルが元のモデルのランク付けをどれほど正確に再現しているかを測定する。
ペairwiseおよびリストワイズ学習の目的関数を用いて解釈可能なモデルを学習し、学習パラダイムごとの性能を比較する。
二次的学習データセットのサイズを系統的に変化させ、データ効率性と一般化性能を調査する。
異なるスプリットや特徴量セットにおいて、元のモデルのランク付けと解釈可能なモデルのランク付けとの相関を測定することで、解釈の正確性を評価する。

実験結果

リサーチクエスチョン

RQ1RQ I: 二次的学習データ量を増やすことで、解釈可能なモデルのベースランカーへの正確性が向上するか？
RQ2RQ II: ベースランカーの学習に用いられる異なる学習アルゴリズム（ペアワイズ対比 vs. リストワイズ）が、解釈可能なモデルの性能に与える影響は何か？
RQ3RQ III: 解釈可能な特徴量のサブセットのみを用いても、グローバルな解釈可能なモデルが、元のベースランカーの行動をどれほど忠実に再現できるか？

主な発見

15,000件のクエリを用いた場合、リストワイズベースランカーからの二次的データで学習した解釈可能なモデルは、ケンダールのtau（τ）が0.49、τ@10が0.74に達し、データ量の増加に伴い相関が改善する中程度の相関を示した。
ペアワイズで学習されたベースモデルの場合、二次的データがわずか400件程度でも高い正確性を達成し、τ@10 = 0.33、Precision@10 = 0.5535に達した。
ペアワイズベースランカーの出力に基づいて学習した解釈可能なモデルは、元のモデルとの相関が最も高く、特に二次的サンプル数が少ない場合に顕著であった。
リストワイズ学習によって学習されたベースランカーは、学習データ量の増加に伴い、τおよびτ@10がより一貫して向上し、解釈可能なモデルの一般化性能が優れていることが示唆された。
解釈可能な特徴量（コンテンツベース）のみを用いても、ペアワイズで学習されたベースモデルの場合、解釈可能なモデルはベースモデルとほぼ同等のPrecisionを達成した。
結果から、コンテンツベースの特徴量のみを用いる場合、大規模な二次的データセットを用いても、複雑なLTRモデルを再現することは困難であることが示され、解釈可能な特徴量に依存するだけでは限界があることが強調された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。