Skip to main content
QUICK REVIEW

[論文レビュー] Overview of the TREC 2019 deep learning track

Nick Craswell, Bhaskar Mitra|arXiv (Cornell University)|Mar 17, 2020
Topic Modeling参考文献 16被引用数 71
ひとこと要約

この論文は、2つのアドホック検索タスクを特徴とするTREC 2019 Deep Learning Track、MS MARCOベースの大規模トレーニングデータ、ブラインド評価、nnlm、nn、従来IR手法の比較、エンドツーエンド vs リランキング分析を紹介します。

ABSTRACT

The Deep Learning Track is a new track for TREC 2019, with the goal of studying ad hoc ranking in a large data regime. It is the first track with large human-labeled training sets, introducing two sets corresponding to two tasks, each with rigorous TREC-style blind evaluation and reusable test sets. The document retrieval task has a corpus of 3.2 million documents with 367 thousand training queries, for which we generate a reusable test set of 43 queries. The passage retrieval task has a corpus of 8.8 million passages with 503 thousand training queries, for which we generate a reusable test set of 43 queries. This year 15 groups submitted a total of 75 runs, using various combinations of deep learning, transfer learning and traditional IR ranking methods. Deep learning runs significantly outperformed traditional IR runs. Possible explanations for this result are that we introduced large training data and we included deep models trained on such data in our judging pools, whereas some past studies did not have such training data or pooling.

研究の動機と目的

  • 大規模データ環境において、ディープラーニングと従来のランキング手法のための大規模で再利用可能なトレーニングデータセットとテストデータセットをご提供する。
  • ランキング手法を比較するために、厳密なブラインドの一発評価を実施する。
  • 実用的IR展開におけるエンドツーエンド検索とリランキングの比較を研究する。
  • 一貫した評価の下で、ニューラル言語モデル、ニューラルネットワークアプローチ、および従来のIRベースラインを比較する。
  • 大規模検索における深層学習手法と従来のインデックス作成との相互作用を探る。

提案手法

  • ドキュメント検索とパッセージ検索の2タスク、エンドツーエンドとリランキングの参加スタイル(fullrank vs rerank)。
  • パッセージからドキュメントへラベルを転送した MS MARCO由来の大規模トレーニングデータ。
  • nnlm(BERT/XLNetのような事前学習済みニューラル言語モデル)、nn(ニューラルネット)、trad(従来IR)で実行を分類。
  • NDCG@10を主指標として評価、関連結果の再現性を評価するためにNCG@kを二次分析として用いる。
  • タスクごとに43の再利用可能なテストクエリを使用し、NISTによるブラインドジャッジ、プールジャッジとHiCAL支援の展開を行う。
  • 43次元NDCGベクトルをt-SNEで縮約して、モデルタイプとグループごとのクラスタリングを分析するためのラン間の類似性の可視化。

実験結果

リサーチクエスチョン

  • RQ1大規模データのアドホック検索タスクにおいて、深層学習モデル(nnlm)は従来のIR手法(trad)を上回るか?
  • RQ2ドキュメント検索とパッセージ検索の両タスクで、nnlm、nn、trad はどのように比較されるか?
  • RQ3エンドツーエンド検索(fullrank)とリランキング(rerank)の検索効果への影響は?
  • RQ4MS MARCOベースのトレーニングラベルは、NISTラベルを用いたTREC風評価において転送可能で予測力があるか?

主な発見

  • nnlmの実行は、ドキュメント検索とパッセージ検索の両タスクでnnとtradの実行を上回る。nnlmとbest tradのギャップはNDCG@10で、ドキュメント検索が29.4%、パッセージ検索が37.4%。
  • エンドツーエンドのfullrank提出は一貫してリランキング提出を上回らない。観測されるNDCG@10の最高差は、ドキュメントで0.9%、パッセージで3.6%、fullrank有利。
  • ドキュメント検索では、BM25+RM3設定とdoc2query強化で最高のNCG@100を達成し、100候補基準より22.9%改善。
  • t-SNE分析は、グループおよびモデルタイプカテゴリ(nnlm、nn、trad)ごとに実行がクラスタ化されることを示し、手法間の意味ある類似性を示唆。
  • MS MARCOとNISTラベルを用いたクロス評価は、実行順序に一般的な一致を示し、MS MARCOの結果が伝統的なTRECパフォーマンスの指標として示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。