[論文レビュー] Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned
著者らは複数のモデルサイズと安全介入を横断して手動のレッドチーミングを実施し、大規模なレッドチーム攻撃データセットを公開し、スケーリング傾向と害を分析して言語モデルの安全実践を導く。
We describe our early efforts to red team language models in order to simultaneously discover, measure, and attempt to reduce their potentially harmful outputs. We make three main contributions. First, we investigate scaling behaviors for red teaming across 3 model sizes (2.7B, 13B, and 52B parameters) and 4 model types: a plain language model (LM); an LM prompted to be helpful, honest, and harmless; an LM with rejection sampling; and a model trained to be helpful and harmless using reinforcement learning from human feedback (RLHF). We find that the RLHF models are increasingly difficult to red team as they scale, and we find a flat trend with scale for the other model types. Second, we release our dataset of 38,961 red team attacks for others to analyze and learn from. We provide our own analysis of the data and find a variety of harmful outputs, which range from offensive language to more subtly harmful non-violent unethical outputs. Third, we exhaustively describe our instructions, processes, statistical methodologies, and uncertainty about red teaming. We hope that this transparency accelerates our ability to work together as a community in order to develop shared norms, practices, and technical standards for how to red team language models.
研究の動機と目的
- モデルサイズと安全介入の組み合わせにおけるレッドチームの有効性がどのようにスケールするかを調査する。
- レッドチーミングで明らかになった有害出力の種類と頻度を定量化する。
- レッドチーミングのコミュニティ規範を進化させるための透明な方法論、データセット、ガイドラインを提供する。
- 言語モデルのより安全な展開に向けた制限と政策影響を検討する。
提案手法
- 一般的な言語モデルをレッドチーム化して、オープンエンドでトピック重心の対話を通じて有害出力を誘発する。
- 4つのモデルタイプを比較する:Plain LM、HHHプロンプト付きLM、Rejection Sampling (RS)、および RLHFベースの HH モデル。
- 無害性選好モデルを訓練するために、より有害な反応とより無害な反応のペアを収集する。
- レッドチーム自己評価と選好モデルからの有害性スコアを用いて攻撃の成功を測定する。
- 最小無害性スコアを用いて有害性を集約し、モデルタイプとサイズ間の分布を分析する。
- 38,961件のレッドチーム攻撃データセットを公開し、付随するドキュメントを提供する。
実験結果
リサーチクエスチョン
- RQ1モデルサイズや異なる安全介入(Plain LM、HHH prompting、RS、RLHF)によってレッドチームの難易度はどのように変化するか?
- RQ2明らかになった有害の主要なタイプは何か、モデルタイプとサイズ間でどのようにクラスタリングされるか?
- RQ3無害性選好モデルが安全介入を指針づけし、有害出力を減らすうえでどれだけ効果的か?
- RQ4クラウドワーカーを用いた大規模レッドチーミングの限界と倫理的配慮は何か?
主な発見
- RLHFモデルはモデルサイズが大きくなるにつれてレッドチームを行うのが難しくなる。
- Plain LM、HH prompted LM、およびRSモデルは、レッドチームの脆弱性においてサイズとともにフラットなスケーリング傾向を示す。
- RSモデルはどのスケールでもレッドチームが最も難しいが、回避的であるため無害である傾向がある。
- RLHFおよびRS介入は平均的な有害性を低減するが、有害出力を完全に排除するわけではない(分布の尾部に見られる)。
- 38,961件のレッドチーム攻撃データセットを公開し、より広範な分析とツール開発を可能にする。
- 有害タイプには攻撃的言語、差別、嫌がらせ、偽情報、個人を特定できる情報(PII)関連コンテンツが含まれ、クラスタリングは意味的に関連する攻撃カテゴリを明らかにする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。