[論文レビュー] BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage
BlenderBot 3 は、インターネットアクセスと長期記憶を備えた 175B パラメータのオープンドメイン対話モデルで、長期的な学習を安全機構とともに研究するために公開デプロイされています。
We present BlenderBot 3, a 175B parameter dialogue model capable of open-domain conversation with access to the internet and a long-term memory, and having been trained on a large number of user defined tasks. We release both the model weights and code, and have also deployed the model on a public web page to interact with organic users. This technical report describes how the model was built (architecture, model and training scheme), and details of its deployment, including safety mechanisms. Human evaluations show its superiority to existing open-domain dialogue agents, including its predecessors (Roller et al., 2021; Komeili et al., 2022). Finally, we detail our plan for continual learning using the data collected from deployment, which will also be publicly released. The goal of this research program is thus to enable the community to study ever-improving responsible agents that learn through interaction.
研究の動機と目的
- インスタンス BlenderBot 3 (BB3) を、インターネットアクセスと長期記憶を備えた 175B パラメータの対話モデルとして紹介する。
- 公開アクセス可能なエージェントのデプロイ設計、ユーザーインターフェース、および安全機構を実演する。
- 知識根拠データや安全性重視データを含む多様な対話タスクに対する訓練とファインチューニングを探る。
- デプロイから収集したデータを用いた継続的学習の計画を提示し、責任性と有用性の向上を図る。
- 公開・再現可能な継続学習研究のために、モデルウェイト、コード、データセット、および計画を公開する。
提案手法
- 入力トークンによって制御される逐次モジュールを備えたモジュラー型トランスフォーマーアーキテクチャで、インターネット検索、知識根拠付け、メモリ生成、最終応答生成といったタスクを実行する。
- R2C2 および OPT の事前学習バックボーン上に構築された 3B、30B、175B の 3 つの BB3 サイズで、幅広い対話データセットに対してタスク固有のファインチューニングを実施。
- モジュールを指定する特殊なコントロールトークンを用いて、QA、知識根拠付け、タスク指向、そして安全性関連の対話データセットに対する大規模マルチタスクファインチューニング(Tables 2 および関連テキスト)を実施。
- デプロイ時に不安全な出力を除外するため、別個の安全性分類器とキーワードベースの安全対策を追加。
- ウェブUI、フィードバック機構、および再現可能な継続学習研究を可能にするデータ共有条件を備えた公開デプロイ。
- ライブデプロイの対話と更新済みモデルスナップショットの公開計画、さらには人間のフィードバックからの学習(FITS)とDirector風の安全指針に関する補助的研究。
実験結果
リサーチクエスチョン
- RQ1インターネットアクセスを備えた大規模なオープンドメイン対話モデルを、さまざまなタスクで堅牢に機能させるよう訓練するにはどうすればよいか?
- RQ2有機的なユーザー対話からの責任ある継続的学習に対して、どのようなデプロイと安全機構が効果的か?
- RQ3デプロイからの継続的学習は、時間とともに有用性と安全性をどの程度向上させることができるか?
- RQ4堅牢でスケーラブルな継続的改善を最も効果的に支えるデータ、フィードバックタイプ、学習アーキテクチャは何か?
- RQ5BB3 は、従来の BlenderBot バージョンやオープンドメインのチャットボットと、オープンベンチマークおよび実世界の利用においてどのように比較されるか?
主な発見
- BB3 は、定性的評価において、公開されている既存のチャットボットおよび BlenderBot の前任者を上回る。
- 著者らは、再現性のある研究を可能にするため、モデルウェイト、コード、モデルカード、および対話データセットを公開する。
- 多層的な安全戦略は、別個の安全分類器とランタイム検査を組み合わせて、不安全な生成を減らす。
- 内部の意思決定ステップと長期記憶状態をユーザーに公開する、包括的なデプロイ設計を含む。
- 有機的な対話を用いた初期デプロイ体験を報告し、デプロイデータを用いた継続的学習の計画を併記する。
- 関連作業(FITS および Director アプローチ)は、継続学習のための人間のフィードバック活用法を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。