QUICK REVIEW

[論文レビュー] Unique Security and Privacy Threats of Large Language Models: A Comprehensive Survey

Shang Wang, Tianqing Zhu|arXiv (Cornell University)|Jun 12, 2024

Privacy-Preserving Technologies in Data被引用数 7

ひとこと要約

この調査は、大規模言語モデル(LLMs)の事前学習、ファインチューニング、RAGシステム、展開、LLMベースのエージェントに跨る5つのシナリオ分類法を提示し、脅威と対策を概説する。

ABSTRACT

With the rapid development of artificial intelligence, large language models (LLMs) have made remarkable advancements in natural language processing. These models are trained on vast datasets to exhibit powerful language understanding and generation capabilities across various applications, including chatbots, and agents. However, LLMs have revealed a variety of privacy and security issues throughout their life cycle, drawing significant academic and industrial attention. Moreover, the risks faced by LLMs differ significantly from those encountered by traditional language models. Given that current surveys lack a clear taxonomy of unique threat models across diverse scenarios, we emphasize the unique privacy and security threats associated with four specific scenarios: pre-training, fine-tuning, deployment, and LLM-based agents. Addressing the characteristics of each risk, this survey outlines and analyzes potential countermeasures. Research on attack and defense situations can offer feasible research directions, enabling more areas to benefit from LLMs.

研究の動機と目的

従来のモデルと比較して、LLMsに固有のプライバシーとセキュリティリスクを動機づけ、分析する。
五つのライフサイクルシナリオに合わせた、より細かな脅威モデルの分類を提案する。
LLM固有のリスクと、言語モデル全般に共通するリスクの両方を特定し、検討する。
既存の対策を要約し、将来の防御研究の方向性を提案する。

提案手法

LLMのライフサイクルを、事前学習、ファインチューニング、リトリーバル拡張生成（RAG）、展開、およびLLMベースのエージェントという五つの脅威シナリオに整理する。
各シナリオ内の脅威の分類を提供し、攻撃目標、能力、手法を詳述する。
それぞれのリスクを、対応する対策と防御と対応づける。
プライバシーとセキュリティリスクを、連邦学習、機械的忘却、およびウォーターマーキングの3つの追加シナリオとともに検討する。
固有のLLMリスクを言語モデル全般の共通リスクと比較し、防御戦略を論じる。

実験結果

リサーチクエスチョン

RQ1事前学習、ファインチューニング、RAG、展開、エージェント展開の各段階で、LLMsに固有のどのようなプライバシーリスクが生じるか。
RQ2各ライフサイクル段階における対応するセキュリティ脅威と攻撃者モデルは何か。
RQ3これらのLLM固有リスクを五つのシナリオ（連邦学習、忘却、ウォーターマーキングを含む）にわたって軽減するための、既存または実現可能な対策は何か。
RQ4これらのリスクは従来の言語モデルとどう異なるか、堅牢な防御を進めるための研究方向は何か。

主な発見

LLMsは、オープンイン interfacesisにさらされると、訓練データの記憶化やホワイトボックスデータ抽出など、固有のプライバシーリスクをもたらす。
LLMs固有のセキュリティリスクには、バックドア、 poisoning、および命令チューニングと整合性プロセスに関連するジャイルブレーク（ jailbreak ）が含まれる。
RAGシステムは、汚染された知識ベースと知識所有者のプライバシーを標的とするジャイルブレーク用プロンプトを介してリスクをもたらす。
LLMの展開はプロンプトベースの攻撃とプロンプト盗用リスクを伴い、固有かつ共通のモデルレベルの脆弱性が存在する。
LLMベースのエージェントは相互作用と潜在的なバックドアにより自律リスクを生み出すため、ガードレールと安全なエージェント設計による防御が必要。
本調査は、シナリオ間でリスクと対策を分類法に基づく対応付けを提案し、より安全なLLM利用のための研究方向性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。