Skip to main content
QUICK REVIEW

[論文レビュー] Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval

Luyu Gao, Jamie Callan|arXiv (Cornell University)|Aug 12, 2021
Topic Modeling被引用数 54
ひとこと要約

coCondenserは、教師なしのコーパス認識対照目的を用いてCondenserベースの言語モデルを事前学習し、dense retrievalのための堅牢な埋め込み空間を作成します。これによりファインチューニング用データ設計と大規模バッチ要件を削減しつつ、競争力のある結果を達成します。

ABSTRACT

Recent research demonstrates the effectiveness of using fine-tuned language models~(LM) for dense retrieval. However, dense retrievers are hard to train, typically requiring heavily engineered fine-tuning pipelines to realize their full potential. In this paper, we identify and address two underlying problems of dense retrievers: i)~fragility to training data noise and ii)~requiring large batches to robustly learn the embedding space. We use the recently proposed Condenser pre-training architecture, which learns to condense information into the dense vector through LM pre-training. On top of it, we propose coCondenser, which adds an unsupervised corpus-level contrastive loss to warm up the passage embedding space. Retrieval experiments on MS-MARCO, Natural Question, and Trivia QA datasets show that coCondenser removes the need for heavy data engineering such as augmentation, synthesis, or filtering, as well as the need for large batch training. It shows comparable performance to RocketQA, a state-of-the-art, heavily engineered system, using simple small batch fine-tuning.

研究の動機と目的

  • dense retrieverが学習データノイズに対して脆弱で、学習中に大規模なバッチを必要とする理由を調査する。
  • dense retrievalのための堅牢な埋め込み空間を構築するコーパス認識前訓練アプローチを提案する。
  • Condenserアーキテクチャを活用してノイズ耐性を高め、コーパスレベルの対照損失を導入する。
  • 教師ありのファインチューニングパイプラインに比肩する、教師なし前訓練が可能であることを示す。
  • ターゲットコーパス上での事前訓練が、効果的な小バッチファインチューニングを可能にすることを示す。

提案手法

  • Condenser前訓練アーキテクチャを踏まえて、堅牢なCLSベースの密集表現を生成する。
  • コーパスレベルの対照損失(coCondenser)を追加し、監督なしでMLMと対照的 objectivesを共同訓練する。
  • 対照損失の augmentationとして文書からのスパンレベルサンプリングを用い(SimCLRスタイル)、文書間の二項対クロスネガティブサンプリングを定義する。
  • リソース制限のあるハードウェア上でメモリ効率の高い大規模バッチ対照事前訓練を可能にする勾配キャッシングを採用する。
  • 前訓練後はCondenserヘッドを破棄し、バックボーンをデュアルエンコーダとしてターゲットタスクの監督付き対照損失でファインチューニングする。
  • BM25ネガティブを第一ラウンド、第一ラウンドで抽出した難ネガティブを第二ラウンドで用いる2回のファインチューニングを行う。

実験結果

リサーチクエスチョン

  • RQ1コーパス認識の教師なし前訓練はdense retrievalのファインチューニングにおける大規模データエンジニアリングの必要性を減らせるか。
  • RQ2コーパスレベルの対照目的は、パッセージのより効果的なグローバル埋め込み空間を形成するのに役立つか。
  • RQ3コーパス認識前訓練後に小規模バッチで競争力のある性能を達成できるか。
  • RQ4coCondenserはMS-MARCO、Natural Questions、TriviaQAにおいてRocketQAや他のベースラインとどのように比較されるか。
  • RQ5コマンドリハーサルなハードウェア上でcoCondenserを訓練するための省メモリ技術は何か。

主な発見

  • coCondenserは小さなバッチでファインチューニングしても競争力のある結果を達成し、いくつかのベースラインと同等またはそれを上回る。
  • coCondenserはデータ拡張、ノイズ除去、大規模バッチ訓練の必要性を低減しつつ、高い性能を維持する。
  • ターゲットコーパス(WikipediaまたはMS-MARCO)上での事前訓練は、DPR-PAQのような大規模半教師あり前訓練と同等かそれに近い利益をもたらす。
  • 対照的コーパス認識目的はグローバルな埋め込み空間とノイズ耐性を改善し、データセット全体でリコールを向上させる。
  • 勾配キャッシングは、限られたハードウェア上で大規模バッチ対照事前訓練をメモリ効率よく実行可能にし、性能を犠牲にしない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。