Skip to main content
QUICK REVIEW

[論文レビュー] Rethinking with Retrieval: Faithful Large Language Model Inference

Hangfeng He, Hongming Zhang|arXiv (Cornell University)|Dec 31, 2022
Topic Modeling被引用数 47
ひとこと要約

この論文は、チェーンオブソートのプロンプトを用いて推論パスを生成し、各ステップの外部知識を取得し、訓練やファインチューニングなしで最も忠実な予測を選択するポスト処理アプローチを提案する。

ABSTRACT

Despite the success of large language models (LLMs) in various natural language processing (NLP) tasks, the stored knowledge in these models may inevitably be incomplete, out-of-date, or incorrect. This motivates the need to utilize external knowledge to assist LLMs. Unfortunately, current methods for incorporating external knowledge often require additional training or fine-tuning, which can be costly and may not be feasible for LLMs. To address this issue, we propose a novel post-processing approach, rethinking with retrieval (RR), which retrieves relevant external knowledge based on the decomposed reasoning steps obtained from the chain-of-thought (CoT) prompting. This lightweight approach does not require additional training or fine-tuning and is not limited by the input length of LLMs. We evaluate the effectiveness of RR through extensive experiments with GPT-3 on three complex reasoning tasks: commonsense reasoning, temporal reasoning, and tabular reasoning. Our results show that RR can produce more faithful explanations and improve the performance of LLMs.

研究の動機と目的

  • 保存された知識が不完全または時代遅れであるため、LLMsを外部知識で補強する必要性を動機づける。
  • 外部知識ベースからの取得を導くためにチェーン・オブ・ソート推論を用いるポスト処理法(Rethinking with Retrieval, RR)を導入する。
  • RRが訓練やファインチューニングなしで、複数の推論タスクにおいて忠実性と予測精度を向上させることを示す。
  • GPT-3とさまざまな知識源を用いて、3つのタスク(常識、時間的、表形式)でRRを評価する。
  • 知識拡張LLM推論における今後の研究を導くための変種と限界の分析を提供する。

提案手法

  • EiとPiを含む推論パス(R1,...,RN)の多様な集合を生成するためにチェーンオブソート型のプロンプトを用いる。
  • 各推論パスの外部知識KBを、説明中の文にBM25を適用して取得し、MPNetで類似の段落を選択し、ニューラル含意モデルでスコア付けしてf_KB(Ri)を得る。
  • パス間で最も忠実性スコアが高いPiを選択して最終予測を計算する(Equation 1)。
  • 取得は元のクエリではなく分割された推論ステップに基づくため、長く複雑なプロンプトでも忠実な推論を可能にする。
  • RRをLLMの訓練やファインチューニングを必要としないポスト処理ステップとして評価する。
  • 3つの推論タスクと複数の知識ベース(Wikipedia, Wikidata, WordNet, ConceptNet)を用いて実験し、ゼロショット、Few-shot、CoT、自己一貫性ベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1RRは追加の訓練なしで、さまざまな推論タスクにおける説明の忠実性と予測の精度を改善しますか?
  • RQ2推論ステップに基づく分解ベースの取得は、知識拡張のためのクエリベースの取得より効果的ですか?
  • RQ3常識、時間的、表形式の推論を横断して、異なる外部知識源でRRはどのように機能しますか?
  • RQ4実践におけるRRのトレードオフと制限は何ですか?

主な発見

  • RRは追加の訓練なしで、常識、時間的、表形式の推論のすべてのベースラインを一貫して上回る。
  • 分解ベースの取得は、クエリベースの取得より精度と忠実性の双方において良い結果を生む。
  • RRと外部知識の併用は、説明の忠実性とタスク全体の予測精度を向上させる。
  • RRは、評価された3つのタスクすべてにおいてCoT promptingとself-consistencyを上回る精度を達成する。
  • この手法はさまざまなLMサイズでも有効であり、モデル規模に対する頑健性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。