Skip to main content
QUICK REVIEW

[論文レビュー] Towards Safer Generative Language Models: A Survey on Safety Risks, Evaluations, and Improvements

Jiawen Deng, Jiale Cheng|arXiv (Cornell University)|Feb 18, 2023
Software Engineering Research被引用数 11
ひとこと要約

この調査は、大規模言語モデルにおける安全性研究の枠組みを提供し、安全性リスク、評価方法、プレトレーニングからデプロイメントまでの改善戦略を詳述します。

ABSTRACT

As generative large model capabilities advance, safety concerns become more pronounced in their outputs. To ensure the sustainable growth of the AI ecosystem, it's imperative to undertake a holistic evaluation and refinement of associated safety risks. This survey presents a framework for safety research pertaining to large models, delineating the landscape of safety risks as well as safety evaluation and improvement methods. We begin by introducing safety issues of wide concern, then delve into safety evaluation methods for large models, encompassing preference-based testing, adversarial attack approaches, issues detection, and other advanced evaluation methods. Additionally, we explore the strategies for enhancing large model safety from training to deployment, highlighting cutting-edge safety approaches for each stage in building large models. Finally, we discuss the core challenges in advancing towards more responsible AI, including the interpretability of safety mechanisms, ongoing safety issues, and robustness against malicious attacks. Through this survey, we aim to provide clear technical guidance for safety researchers and encourage further study on the safety of large models.

研究の動機と目的

  • 大規模言語モデルにおける毒性、不公平、倫理、物議を醸す意見、誤情報、プライバシー、悪用の観点で安全性リスクの範囲を定義する。
  • 好みベースのテスト、敵対的攻撃、安全性の問題検出を含む安全性評価手法を調査する。
  • 事前学習、アラインメント、推論、後処理の4段階にわたる安全性改善戦略を要約し、より安全なモデル開発を guiding する。

提案手法

  • 安全性リスクを6領域に分類して、構造化されたリスクランドスケープを提供する。
  • 好みベースのテスト、敵対的攻撃、検出手法を含む評価フレームワークを説明する。
  • 事前学習、アラインメント、推論、後処理の4段階にわたる安全性改善技術をレビューする。

実験結果

リサーチクエスチョン

  • RQ1LMの安全性リスクの範囲はどこまでか?
  • RQ2これらのリスクをどのように定量化・評価するのか?
  • RQ3LMの安全性をどのように改善できるのか?

主な発見

  • LMの安全性リスクは6つの領域(毒性、不公平、倫理、物議を醸す意見、誤情報、プライバシー、悪用)に分類される。
  • 評価手法には好みベースのテスト、敵対的安全性攻撃、安全性問題検出が含まれ、先進的な指示追従モデルに配慮される。
  • 安全性の改善は事前学習データの選定、アラインメント技術(プロンプト設計、RLHF、制御生成)、推論時の保護、後処理防御に及ぶ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。