[論文レビュー] Helping results assessment by adding explainable elements to the deep relevance matching model
本論文は DRMM ベースの検索インターフェースに説明可能な要素を追加し、クエリ語の重みをドーナツチャートとして可視化し、ハイライトされた passages とサムネイルを含む passage レベルのスニペットを提示します。ユーザ調査を通じて、このインターフェースは説明可能性と評価可能性が高いものの、上位5件の関連文書を選択する点では明確に優れているわけではないことを示しています。
In this paper we address the explainability of web search engines. We propose two explainable elements on the search engine result page: a visualization of query term weights and a visualization of passage relevance. The idea is that search engines that indicate to the user why results are retrieved are valued higher by users and gain user trust. We deduce the query term weights from the term gating network in the Deep Relevance Matching Model (DRMM) and visualize them as a doughnut chart. In addition, we train a passage-level ranker with DRMM that selects the most relevant passage from each document and shows it as snippet on the result page. Next to the snippet we show a document thumbnail with this passage highlighted. We evaluate the proposed interface in an online user study, asking users to judge the explainability and assessability of the interface. We found that users judge our proposed interface significantly more explainable and easier to assess than a regular search engine result page. However, they are not significantly better in selecting the relevant documents from the top-5. This indicates that the explainability of the search engine result page leads to a better user experience. Thus, we conclude that the proposed explainable elements are promising as visualization for search engine users.
研究の動機と目的
- 非個人化ウェブ検索における説明可能性を動機づけ、関連性シグナルを可視化してユーザの信頼を高める。
- DRMM を活用して、視覚的説明のための語項ごとの重要度とパッセージレベルの関連性を抽出する。
- 説明可能な視覚化が説明可能性、評価可能性、関連性選択に関するユーザの判断に及ぼす影響を評価する。
- 説明可能な要素がスニペットのみで関連文書を特定するユーザ能力に影響を与えるかを調査する。
提案手法
- Anserini BM25 を用いて上位 K 文書を取得し、DRMM(MatchZoo 実装)で再ランキングする。
- クエリ語の重みとして視覚化のための語項重みとして解釈される term gating ネットワークを介して、DRMM を語項レベルの重要度を出力するように適用する。
- 文書を非重複の 100 トークンのパッセージに分割し、パッセージレベルの DRMM を学習して文書内のパッセージを ranking し、最大のスコアを持つパッセージをドキュメントのスニペットとして割り当てる。
- クエリ語の重要度を結果ページ上のドーナツチャートとして可視化し、最高スコアのパッセージが強調表示されたドキュメントのサムネイルを表示する。
- 二項対立のランキングと Adadelta 最適化を用いた hinge loss で訓練する。DRMM の局所相互作用には LogCount ベースのヒストグラムを用いる。
- Robust04 データで評価し、DRMM の 5-fold クロスバリデーション、regular インターフェースと explainable インターフェースを比較するユーザ研究を実施する。)
実験結果
リサーチクエスチョン
- RQ1それぞれの文書の最も関連のあるパッセージを選択する際、DRMM のランキングはどれくらい効果的か?
- RQ2説明可能な検索結果ページを、通常のページと比較してユーザはどのように説明可能性と評価可能性を判断するか?
- RQ3説明可能なインターフェースのスニペットのみを基に、通常のインターフェースより関連文書を選択する能力はどれほどか?
主な発見
| BM25 | DRMM | DRMM-maxP |
|---|---|---|
| 0.2531 | 0.3631 | 0.4240 |
| 0.2662 | 0.2974 | 0.3706 |
| 0.3172 | 0.2650 | 0.3177 |
- 説明可能なインターフェースは、通常のインターフェースよりも有意に説明可能と評価される(平均説明可能性 4.2 対 3.4)。
- 説明可能なインターフェースは、通常のインターフェースよりも有意に評価可能と判断される(平均評価可能性 4.4 対 3.6)。
- インターフェースごとの分析は、説明可能性の差が参加者とクエリに対してロバストであることを示す(インターフェース効果有意、ANOVA で p<0.001)。
- 結果ページのみの関連判断におけるユーザの精度と再現率は、説明可能インターフェースで有意な改善を示さなかった(精度 p=0.90、再現率 p=0.38)。
- 検索性能では、パッセージレベルのランキングモデルは BM25 および文書レベルの DRMM より P@20 および nDCG@20 で劣るが、MAP ではやや上回り、説明可能機能の評価には許容できる品質を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。