[論文レビュー] Language Models that Seek for Knowledge: Modular Search & Generation for Dialogue and Prompt Completion
本論文は SeeKeR を紹介する。モジュラー型言語モデルであり、最新の事実に基づく対話やプロンプト完了を生み出すために、検索、知識抽出、最終応答生成を順次実行し、知識に基づくタスクで従来のモデルを上回る。
Language models (LMs) have recently been shown to generate more factual responses by employing modularity (Zhou et al., 2021) in combination with retrieval (Adolphs et al., 2021). We extend the recent approach of Adolphs et al. (2021) to include internet search as a module. Our SeeKeR (Search engine->Knowledge->Response) method thus applies a single LM to three modular tasks in succession: search, generating knowledge, and generating a final response. We show that, when using SeeKeR as a dialogue model, it outperforms the state-of-the-art model BlenderBot 2 (Chen et al., 2021) on open-domain knowledge-grounded conversations for the same number of parameters, in terms of consistency, knowledge and per-turn engagingness. SeeKeR applied to topical prompt completions as a standard language model outperforms GPT2 (Radford et al., 2019) and GPT3 (Brown et al., 2020) in terms of factuality and topicality, despite GPT3 being a vastly larger model. Our code and models are made publicly available.
研究の動機と目的
- 最新で事実的に信頼できる対話およびプロンプト完了システムの必要性を動機づける。
- 検索、知識抽出、応答生成を分離するモジュラーアーキテクチャを提案する。
- 1つのLMが3つのモジュールを順次実行して事実性とエンゲージメントを向上させることを示す。
- 最新モデルと比較して、オープンドメイン対話とトピック別プロンプト完了における SeeKeR を評価する。
提案手法
- 検索、知識、応答の3つのモジュールとして反復的に使用される単一のトランスフォーマーアーキテクチャを導入する。
- 元の文脈とモジュール出力を次のモジュールへの入力としてエンコードする(SeeKeR パイプライン)。
- Wizard of Internet、Wizard of Wikipedia、SQuAD、TriviaQA、Natural Questions、MS MARCO および対話データセットに基づく監督付きタスクでモジュールを訓練する。
- 言語モデリングと対話データ(R2C2)で事前学習を行い、対話と言語モデリングのタスクの両方を微調整する。
- 対話において、整合性、知識、正確性、エンゲージメントに関する人間の判断を用いて SeeKeR を BlenderBot 2 およびベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1単一の LM が、対話における最新情報のための3ステップのモジュール化パイプライン(検索、知識抽出、最終生成)を効果的に実行できるか?
- RQ2SeeKeR は、以前のオープンドメイン対話システムと比較して事実性、知識の根拠づけ、各ターンのエンゲージメントを改善するか?
- RQ3インターネット検索を使用した場合、SeeKeR はトピック別プロンプト完了へ拡張し、事実性とトピック性の点で大規模なGPT系モデルを上回るか?
- RQ4ウェブ検索をモジュール生成フレームワークに組み込む際のトレードオフと失敗モードは何か?
主な発見
- 人間の評価で、SeeKeR は整合性、知識統合、各ターンのエンゲージメントにおいて、最先端のオープンドメイン対話モデル(例: BlenderBot 2)を上回る。
- ゴールド文書またはゴールド知識を使用すると指標全体で SeeKeR の性能が向上し、検索有効版は強力な事実的根拠を提供する。
- トピック別プロンプト完了では、インターネット検索を用いた SeeKeR は、GPT-2 および GPT-3 よりも真実性が高く、トピック性が高く、幻覚が少ない完了を人間の評価で示し、サイズははるかに小さいにもかかわらず。
- 対話と言語モデリングを同時に扱うマルチタスク SeeKeR は、トピックプロンプトとオープンドメイン対話の評価で高い性能を達成し、いくつかの設定で GPT-3 より幻覚が少ない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。