Skip to main content
QUICK REVIEW

[論文レビュー] Zero-shot Neural Retrieval via Domain-targeted Synthetic Query Generation.

Ji Ma, Ivan Korotkov|arXiv (Cornell University)|Apr 29, 2020
Topic Modeling被引用数 20
ひとこと要約

本論文は、一般ドメインのデータで微調整された事前学習済みクエリ生成モデルを用いて、ドメインに特化した合成クエリ-ドキュメントペairを生成するゼロショットニューラルリtrievalフレームワークを提案する。これらの合成的ではあるがドメイン関連性の高い学習ペアを活用することで、特殊ドメインにおけるラベル付きデータを必要とせず、効果的なニューラルアドホックリtrievalを実現する。ベンチマークデータセットにおいて、ゼロショット設定で学習を行っているにもかかわらず、競争力のある性能を達成している。

ABSTRACT

Deep neural scoring models have recently been shown to improve ranking quality on a number of benchmarks (Guo et al., 2016; Daiet al., 2018; MacAvaney et al., 2019; Yanget al., 2019a). However, these methods rely on underlying ad-hoc retrieval systems to generate candidates for scoring, which are rarely neural themselves (Zamani et al., 2018). Re-cent work has shown that the performance of ad-hoc neural retrieval systems can be competitive with a number of baselines (Zamani et al.,2018), potentially leading the way to full end-to-end neural retrieval. A major road-block to the adoption of ad-hoc retrieval models is that they require large supervised training sets to surpass classic term-based techniques, which can be developed from raw corpora. Previous work shows weakly supervised data can yield competitive results, e.g., click data (Dehghaniet al., 2017; Borisov et al., 2016). Unfortunately for many domains, even weakly supervised data can be scarce. In this paper, we pro-pose an approach to zero-shot learning (Xianet al., 2018) for ad-hoc retrieval models that relies on synthetic query generation. Crucially, the query generation system is trained on general domain data, but is applied to documents in the targeted domain. This allows us to create arbitrarily large, yet noisy, query-document relevance pairs that are domain targeted. On a number of benchmarks, we show that this is an effective strategy for building neural retrieval models for specialised domains.

研究の動機と目的

  • 特殊ドメインにおけるアドホックニューラルリtrievalのためのラベル付き学習データが限られているという課題に対処すること。
  • しばしばニッチドメインでは入手困難な教師ありまたは弱教師ありデータに依存するのを回避すること。
  • ターゲットドメインに特化した合成関係ペアを生成することで、ニューラルリtrieバルモデルのゼロショット学習を可能にすること。
  • 一般ドメインモデルから生成された合成データが、特殊ドメインにおける高性能なリtrieバルシステムの訓練に効果的に使えることを実証すること。

提案手法

  • MS MARCO などの一般ドメインデータでクエリ生成モデルを学習し、多様で現実的なクエリを生成する。
  • 事前学習済みのクエリ生成モデルをターゲットドメインのドキュメントに適用し、合成クエリ-ドキュメントペアを生成する。
  • 合成クエリ-ドキュメントペアを弱教師付き学習として活用し、ゼロショット設定でニューラルアドホックリtrieバルモデルを訓練する。
  • 合成関係ペアを用いてリtrieバルモデルを微調整し、ドキュメントのスコアリング関数を活用して順序付けを行う。
  • ドメイン関連性を保証するため、クエリ生成モデルをドメイン固有のドキュメントにのみ適用する。
  • トランスファーラーニングの原則を活用し、一般ドメインクエリ生成モデルが未観測ドメインに対しても現実的なクエリを生成できるようにする。

実験結果

リサーチクエスチョン

  • RQ1一般ドメインクエリ生成モデルから生成された合成クエリ-ドキュメントペアは、ゼロショット設定でニューラルリtrieバルモデルを効果的に訓練できるか?
  • RQ2合成データで学習したゼロショットニューラルリtrieバルモデルの性能は、特殊ドメインにおける教師ありベースラインと比べてどの程度か?
  • RQ3合成クエリの品質が最終的なリtrieバルモデルの有効性にどの程度影響を与えるか?
  • RQ41つの一般ドメインクエリ生成モデルは、多様で未観測のターゲットドメインに対して十分に汎用的に有用なクエリを生成できるか?

主な発見

  • 提案手法は、ターゲットドメインにラベル付きデータを一切使用せずに、複数のベンチマークデータセットで競争力のある性能を達成した。
  • 一般ドメインモデルから生成された合成クエリ-ドキュメントペアは、ゼロショット設定で強力なベースラインを上回る性能を示すニューラルリtrieバルモデルの訓練に十分である。
  • 本手法は強いゼロショット一般化性能を示しており、特殊ドメインにおける実際のラベル付きデータに代わって合成データが効果的に利用可能であることを示している。
  • 特に、ラベル付きデータが乏しいもしくは入手不可能な低リソースドメインにおいて、性能向上が顕著に見られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。