QUICK REVIEW

[論文レビュー] Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP

Omar Khattab, Keshav Santhanam|arXiv (Cornell University)|Dec 28, 2022

Topic Modeling被引用数 52

ひとこと要約

DSP は Demonstrate、Search、Predict の段階を組み合わせるフレームワークを提案し、凍結された言語モデルと検索モデル間の高度な相互作用を実現します。ファインチューニングなしで知識集約タスクにおける最先端のインコンテキスト学習を達成します。

ABSTRACT

Retrieval-augmented in-context learning has emerged as a powerful approach for addressing knowledge-intensive tasks using frozen language models (LM) and retrieval models (RM). Existing work has combined these in simple "retrieve-then-read" pipelines in which the RM retrieves passages that are inserted into the LM prompt. To begin to fully realize the potential of frozen LMs and RMs, we propose Demonstrate-Search-Predict (DSP), a framework that relies on passing natural language texts in sophisticated pipelines between an LM and an RM. DSP can express high-level programs that bootstrap pipeline-aware demonstrations, search for relevant passages, and generate grounded predictions, systematically breaking down problems into small transformations that the LM and RM can handle more reliably. We have written novel DSP programs for answering questions in open-domain, multi-hop, and conversational settings, establishing in early evaluations new state-of-the-art in-context learning results and delivering 37-120%, 8-39%, and 80-290% relative gains against the vanilla LM (GPT-3.5), a standard retrieve-then-read pipeline, and a contemporaneous self-ask pipeline, respectively. We release DSP at https://github.com/stanfordnlp/dsp

研究の動機と目的

LMとRM間のタスク認識型でプログラム可能な相互作用が、単純な retrieve-then-read パイプラインを超えることを主張する。
デモンストレーションをブーストし、マルチホップ検索を実行し、確かな根拠を持つ予測を生成するパイプラインを表現するために DSP フレームワークを導入する。
DSP がLMまたはRMのファインチューニングなしで、知識集約型タスクにおける最先端のインコンテキスト学習結果を可能にすることを示す。
エンドタスクラベル主導のデモンストレーションブーストを支援する、モジュール型の変換と組み合わせ可能な演算子を実証する。
より広い実験と再利用のために DSP のオープンソースリリースを提供する。

提案手法

三段階の DSP（Demonstrate、Search、Predict）を、Example データ型上で動作する組み換え可能な変換として定義する。
エンドタスクラベルからの弱い監督信号を介してデモンストレーションをブーストするために Demonstrate を用いる。
LM生成クエリにより推進されるマルチホップおよび対話型検索を実行するために Search を用いる。
デモンストレーションと取得済みのパッセージを用いて、根拠のある予測を生成・選択するために Predict を用いる。
LM のファインチューニングなしに、自己整合性、PoT、アンサンブルプロンプトなどの複数のデモンストレーション選択および予測集約戦略をサポートする。
凍結された GPT-3.5 と ColBERTv2 を用いて Open-SQuAD、HotPotQA、QReCC 上で DSP を評価し、ベースラインと比較した相対的な利得を報告する。

実験結果

リサーチクエスチョン

RQ1タスク認識型でプログラム可能な DSP パイプラインは、知識集約型タスクにおいて、素のインコンテキスト学習や標準的な retrieve-then-read 設定を上回ることができるか？
RQ2ファインチューニングなしで、LMとRMの間でどのような変換と組み合わせが、マルチホップおよび対話型推論を最も効果的に実現するか？
RQ3デモンストレーション、マルチホップ検索戦略、および予測集約は、知識集約型NLPの根拠付けと精度にどのように寄与するか？
RQ4デモンストレーションのブーストと適応的デモンストレーション選択は、オープンドメインQA、マルチホップQA、および会話型QAのロバスト性を向上させるか？

主な発見

DSP は、タスク全体で vanilla GPT-3.5 ベースラインに対して相対的に 37–120% のゲインをもたらす。
DSP は、標準的な retrieve-then-read パイプラインに対して相対的に 8–39% のゲインをもたらす。
DSP は、同時期の self-ask パイプラインに対して相対的に 80–290% のゲインをもたらす。
著者リポジトリで DSP のオープンソース実装を提供している。
Demonstrate はエンドタスクラベルから中間ステップの自動注釈を可能にし、手作業のラベリングの必要性を減らす。
実験は、凍結モジュールとファインチューニングなしで、オープンドメインQA、マルチホップQA、および対話型QAを網羅する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。