[論文レビュー] Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow Instructions
論文は、指示適性調整中に少量の安全性を重視したデモンストレーションを追加することで、オープンソースのLLaMA/Falconモデルの安全性が著しく向上する一方で、標準ベンチマークへの影響は最小限であることを示している。一方で過度の安全データは、過剰な安全性と無害なプロンプトの拒否につながる可能性がある。
Training large language models to follow instructions makes them perform better on a wide range of tasks and generally become more helpful. However, a perfectly helpful model will follow even the most malicious instructions and readily generate harmful content. In this paper, we raise concerns over the safety of models that only emphasize helpfulness, not harmlessness, in their instruction-tuning. We show that several popular instruction-tuned models are highly unsafe. Moreover, we show that adding just 3% safety examples (a few hundred demonstrations) when fine-tuning a model like LLaMA can substantially improve its safety. Our safety-tuning does not make models significantly less capable or helpful as measured by standard benchmarks. However, we do find exaggerated safety behaviours, where too much safety-tuning makes models refuse perfectly safe prompts if they superficially resemble unsafe ones. As a whole, our results illustrate trade-offs in training LLMs to be helpful and training them to be safe.
研究の動機と目的
- 安全性を重視した指示適性調整が、オープンソースの指示追従型LLMの有害な応答を減らすことを示す。
- 安全データの量と種類がモデルの安全性と一般能力にどう影響するかを調査する。
- 過度の安全性やプロンプトの-framing(枠組み)効果を含むトレードオフを特定する。
- 再現可能な安全性評価のデータセットと評価パイプラインを提供する。
提案手法
- GPT-3.5-turboを用いてリード・テスト質問を安全な指示応答ペアへ変換し、安全性重視の指示データセットを構築する。
- ベースの Alpaca クリーンな指示セットに対して、異なる量の安全データを追加する(100、300、500、1000、1500、2000指示)。
- LoRAを用いてLLaMA 7B、LLaMA 13B、Falcon 7Bを4エポック微調整し、検証損失でチェックポイントを選択する。
- 悪意のある、論争的、身体的安全、誇張的安全のシナリオを含む安全性評価データセットを設計する。
- 有害性報酬モデル、コンテンツモデレーションAPI、手動アノテーションを用いた安全性評価と、一般能力ベンチマーク(AlpacaEval、LM Harness)を実施する。
- トレーニング時のプロンプト形式の影響を、 safety質問対安全指示対混合形式で比較して分析する。
実験結果
リサーチクエスチョン
- RQ1オープンソースの指示適性調整LLMは、悪意あるプロンプトを受けたときにどれだけ不安全になり得るか。
- RQ2指示適性調整中に安全デモを追加することで、有害な出力を低減しつつ一般能力を損なわないか。
- RQ3過剰な安全データ(過度の安全性)がモデルの挙動に与えるリスクは何か。
- RQ4トレーニング時の安全性データの形式(指示 vs. 質問 vs. 混合)が安全性と使いやすさにどう影響するか。
主な発見
- 指示適性調整中に追加された安全データは、有害な応答を大幅に減らす。報酬モデルとコンテンツモデレーション指標で測定。
- 500–1000の安全指示を追加することで(20kベースを超えて)有害性を大幅に低減し、標準ベンチマークの劣化を招かない。
- 過度の安全データ(例:2000件の安全指示)は、誇張的安全性の可能性を高め、モデルが安全なプロンプトさえ拒否する状況を生む。
- トレーニング時のプロンプトの枠組み(指示 vs. 質問 vs. 混合)によって安全性の結果が大きく左右され、指示形式が一般により安全な応答をもたらす。
- 安全性を調整したモデルは、標準ベンチマーク(AlpacaEval、LM Harness)での総合的な性能を、非安全調整ベースラインと比較してほぼ維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。