[論文レビュー] Recipes for Safety in Open-domain Chatbots
この論文は人間とモデルの協調と安全性を組み込んだフレームワークを提案し、オープンドメインのチャットボットにおける有害な振る舞いを減らすための複数の安全戦略を比較し、安全性と魅力を評価する。さらに Bot-Adversarial Dialogue Safety (BAD) を導入し、既存手法に対する有効性を分析する。
Models trained on large unlabeled corpora of human interactions will learn patterns and mimic behaviors therein, which include offensive or otherwise toxic behavior and unwanted biases. We investigate a variety of methods to mitigate these issues in the context of open-domain generative dialogue models. We introduce a new human-and-model-in-the-loop framework for both training safer models and for evaluating them, as well as a novel method to distill safety considerations inside generative models without the use of an external classifier at deployment time. We conduct experiments comparing these methods and find our new techniques are (i) safer than existing models as measured by automatic and human evaluations while (ii) maintaining usability metrics such as engagingness relative to the state of the art. We then discuss the limitations of this work by analyzing failure cases of our models.
研究の動機と目的
- 大規模な人間との相互作用コーパスで訓練されたオープンドメイン対話モデルにおける攻撃的・偏見的・不安全な振る舞いの緩和方法を調査する。
- 二段階およびエンドツーエンド方式の間で、不安全な発話検出、安全な発話生成、センシティブな話題の回避、ジェンダー・バイアス緩和を比較する。
- 新規の安全手法(Bot-Adversarial Dialogue Safety および Baking-in Safety)を導入し、安全性と魅力度のトレードオフを評価する。
提案手法
- 不安全な発話検出の評価と、二段階モデル(層としてのセーフティ分類器)への展開。
- データ前処理、セーフビームブロッキング、セーフティとスタイルの制御、そして baking-in safety を含む Safe Utterance Generation 技術を開発する。
- 補完的な安全戦略として、センシティブな話題の回避とジェンダーバイアス緩和を探る。
- 人間がボットを敵対的に探り不安全な応答を引き出して分類器を改善する Bot-Adversarial Dialogue Safety (BAD) のデータ収集を導入する。
- 安全性の考慮を生成モデルに蒸留し、デプロイ時に外部の安全分類器を不要にする。
実験結果
リサーチクエスチョン
- RQ1多ターンのオープンドメイン対話において、安全分類器は不安全な内容を頑健に検出できるか?
- RQ2エンドツーエンドの安全生成アプローチ(baking-in safety を含む)は、実世界のエンゲージメントと安全性指標において二段階の安全パイプラインを上回るか?
- RQ3センシティブな話題の回避とジェンダーバイアス緩和が安全性とエンゲージング性に及ぼす影響は何か?
- RQ4Bot-Adversarial Dialogue Safety は既存の分類器と比較して安全性モデルの頑健性をどのように改善するか?
主な発見
- 検出器を備えた二段階の安全モデルは、従来の安全分類器を安全性で上回りつつ、エンゲージング性を維持できる。
- トレーニング時に生成モデルへ安全性を蒸留する baked-in safety モデルは、推論時の外部分類器の必要性を減らし、エンゲージメントを維持しつつ安全性を向上させる。
- データ焼成(Data baking)と安全性を意識した訓練は、前学習データが有害であっても不安全な出力を緩和できる。
- BOT-Adversarial Dialogue Safety のデータ収集は、(例) 5k 会話と約7万発話など大量の敵対的対話データを得て、より頑健な安全分類器を訓練する。
- データフィルタリングと制御ベースの戦略は、エンゲージメントを大きく損なうことなく安全性とスタイルに影響を与えられる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。