Skip to main content
QUICK REVIEW

[論文レビュー] The Capacity for Moral Self-Correction in Large Language Models

Deep Ganguli, Amanda Askell|arXiv (Cornell University)|Feb 15, 2023
Topic Modeling被引用数 48
ひとこと要約

本論文は、RLHFで訓練された大規模言語モデルを、自然言語の指示を通じて有害な出力を回避する方向へ誘導できることを示しており、22Bパラメータを超えるサイズでより強い効果が見られ、十分なRLHFのファインチューニングが必要である。

ABSTRACT

We test the hypothesis that language models trained with reinforcement learning from human feedback (RLHF) have the capability to "morally self-correct" -- to avoid producing harmful outputs -- if instructed to do so. We find strong evidence in support of this hypothesis across three different experiments, each of which reveal different facets of moral self-correction. We find that the capability for moral self-correction emerges at 22B model parameters, and typically improves with increasing model size and RLHF training. We believe that at this level of scale, language models obtain two capabilities that they can use for moral self-correction: (1) they can follow instructions and (2) they can learn complex normative concepts of harm like stereotyping, bias, and discrimination. As such, they can follow instructions to avoid certain kinds of morally harmful outputs. We believe our results are cause for cautious optimism regarding the ability to train language models to abide by ethical principles.

研究の動機と目的

  • RLHFで訓練された大規模言語モデルは、有害を避けるよう指示された場合に道徳的に自己修正できるかを動機付ける。
  • モデルサイズとRLHF訓練量が、ステレオタイプ的バイアスおよび差別的出力の影響を受けやすさにどのように影響するかを調査する。
  • 自然言語プロンプトが複数のベンチマークを横断してモデルの公平な振る舞いへと導くかを評価する。

提案手法

  • 810Mから175BパラメータのサイズにわたるRLHFでファインチューニングされたデコーダーのみのトランスフォーマーモデルを調査する。
  • BBQ(バイアス)、Winogender(性別代名詞のバイアス)、法科大学院入学を基準とした差別のベンチマークを用いた3つの実験を評価する。
  • 3つのプロンプト介入を適用する:Q(基準となる質問)、Q+IF(指示に従う)、Q+IF+CoT(思考過程のバリアント)。
  • RLHFトレーニングステップ(50から1000)を使用して訓練量の影響を分析する。
  • モデルサイズとRLHFステップがバイアス、実世界の統計との相関、デモグラフィック・パリティに与える影響を分析する。
Figure 1: Metrics for stereotype bias or discrimination (y-axes) vary with model size (x-axis) and experimental conditions (colors) for three experiments (panels, details in § 3 ). (Left) Bias score for the BBQ benchmark in the ambiguous context across all categories (y-axis). As models become large
Figure 1: Metrics for stereotype bias or discrimination (y-axes) vary with model size (x-axis) and experimental conditions (colors) for three experiments (panels, details in § 3 ). (Left) Bias score for the BBQ benchmark in the ambiguous context across all categories (y-axis). As models become large

実験結果

リサーチクエスチョン

  • RQ1RLHFで訓練された大規模言語モデルは、有害を避けるよう指示された場合に有害な出力を回避できるか。
  • RQ2モデルサイズとRLHF訓練量が、ステレオタイプ的バイアスと差別の減少能力にどう影響するか。
  • RQ3自然言語の指示とCoTプロンプティングは、さまざまな公平性ベンチマークで道徳的自己修正を可能にするか。
  • RQ4バイアス関連タスクにおけるモデル出力と実世界の人口統計統計の関係はどうなるか。

主な発見

  • 道徳的自己修正能力は約22Bパラメータで現れ、サイズが大きくRLHF訓練がより多いほど改善する。
  • 指示追従(Q+IF)とCoTプロンプティング(Q+IF+CoT)は、特に大規模モデルと多くのRLHFステップでBBQのバイアスを有意に低減する。
  • RLHF訓練は一般にベンチマーク全体でバイアスを低減するが、BBQ実験のQ+IF条件で最も強い低減が見られる。
  • Winogenderでは、 promptingにより大規模モデルが中立または統計に整合した代名詞選択へと誘導される。
  • 差別のベンチマークでは、レースに基づかない決定とする指示がある特定のモデルサイズとRLHFステップの組み合わせでデモグラフィック・パリティを達成可能だが、そうでなければパリティは保証されない。
  • 実験を通じて、文脈と prompting に左右され、RLHFステップを持つより大きなモデルは、偏見を減少させる場合も増幅させる場合もある。
Figure 2: Influence of RLHF training (x-axes) for metrics for metrics for stereotype bias or discrimination (y-axes) for the 175B parameter model. (Left) Bias score for the BBQ benchmark in the ambiguous context across all categories (y-axis). Increasing the amount of RLHF steps decreases bias acros
Figure 2: Influence of RLHF training (x-axes) for metrics for metrics for stereotype bias or discrimination (y-axes) for the 175B parameter model. (Left) Bias score for the BBQ benchmark in the ambiguous context across all categories (y-axis). Increasing the amount of RLHF steps decreases bias acros

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。