[論文レビュー] AI Safety in Generative AI Large Language Models: A Survey
生成モデル系大規模言語モデルにおけるAI安全性リスクを、コンポーネントベースのフレームワークで分類し、モデルの学習、 prompting、 alignment の方法と結びつける、コンピュータサイエンスに焦点を当てた調査。
Large Language Model (LLMs) such as ChatGPT that exhibit generative AI capabilities are facing accelerated adoption and innovation. The increased presence of Generative AI (GAI) inevitably raises concerns about the risks and safety associated with these models. This article provides an up-to-date survey of recent trends in AI safety research of GAI-LLMs from a computer scientist's perspective: specific and technical. In this survey, we explore the background and motivation for the identified harms and risks in the context of LLMs being generative language models; our survey differentiates by emphasising the need for unified theories of the distinct safety challenges in the research development and applications of LLMs. We start our discussion with a concise introduction to the workings of LLMs, supported by relevant literature. Then we discuss earlier research that has pointed out the fundamental constraints of generative models, or lack of understanding thereof (e.g., performance and safety trade-offs as LLMs scale in number of parameters). We provide a sufficient coverage of LLM alignment -- delving into various approaches, contending methods and present challenges associated with aligning LLMs with human preferences. By highlighting the gaps in the literature and possible implementation oversights, our aim is to create a comprehensive analysis that provides insights for addressing AI safety in LLMs and encourages the development of aligned and secure models. We conclude our survey by discussing future directions of LLMs for AI safety, offering insights into ongoing research in this critical area.
研究の動機と目的
- データ、モデル、プロンプティング、整合、スケーリングの観点から、GAI-LLMs における安全性の有害事象とリスクの構造化された概要を提供する。
- LLMのアーキテクチャとワークフローに安全上の懸念を対応づける、コンポーネントベースの分類法を開発する。
- 特定されたリスクを、in-context learning、prompting、human feedbackを伴う強化学習などのLLMの主要な手法と関連付ける。
- GAI-LLMs の将来の安全な開発を指導する評価フレームワークとギャップを特定する。
- 大規模言語モデルにおけるAI安全性研究と実践の今後の方向性を論じる。
提案手法
- コンピュータサイエンス/NLPの観点から、GAI-LLMsのAI安全性に関する文献中心の調査を実施する。
- 安全上の懸念の5カテゴリー分類法(Data Safety、Model Safety、Prompt Safety、Alignment、Safety at Scale)を提案する。
- 安全リスクをLLMの手法(in-context learning、prompting、reinforcement learning)と関連付ける。
- 安全性を評価するために用いられる評価フレームワークとガバナンス資源をレビュー・参照する(例:HELM、BigBench)。
- この調査を他の研究と比較して、コンポーネントベースで起源に焦点を当てた安全性の問題の見方を強調する。
実験結果
リサーチクエスチョン
- RQ1生成型AI大規模言語モデルに関連する主要な安全リスクと有害性は何か?
- RQ2データ、モデル、prompting、整合、スケーリングの観点で安全上の懸念をどのように体系的に分類できるか?
- RQ3特定されたリスクは、in-context learning、prompting、reinforcement learning with human feedback などの特定のLLM手法にどう対応するか?
- RQ4LLMの安全性を評価するためにどのような評価フレームワークが存在し、将来の研究のギャップはどこにあるか?
- RQ5調整されたり安全なGAI-LLMsを改善するために、どのような将来の方向性と介入が提案されているか?
主な発見
- Data Safety、Model Safety、Prompt Safety、Alignment、 and Safety at Scale の各カテゴリにまたがる、LLMs の安全上の懸念の新しいコンポーネントベース分類法を提案する。
- 安全リスクが特定のLLM技術、特にin-context learning、prompting、reinforcement learningに結びつくことを示し、ターゲットを絞った介入を可能にする。
- 評価フレームワーク(例:HELM、BigBench)とガバナンス文献の範囲と関連性を、継続的な安全性評価の一部として要約する。
- 安全性課題の統一理論の必要性を強調し、文献と実世界のシステム実装のギャップを指摘する。
- モデルがスケールするにつれて、研究者と実務家を、整合性が取れた安全なLLM開発へ導くことを目的とした構造化された総括を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。