[論文レビュー] Malla: Demystifying Real-world Large Language Model Integrated Malicious Services
この論文は現実世界の Malla の大規模実証研究の初めてを提示し、地下市場とホスティングプラットフォームを横断して212サンプルを分析し、LLM搭載の悪意あるサービスのエコシステム、技術、経済を明らかにする。
The underground exploitation of large language models (LLMs) for malicious services (i.e., Malla) is witnessing an uptick, amplifying the cyber threat landscape and posing questions about the trustworthiness of LLM technologies. However, there has been little effort to understand this new cybercrime, in terms of its magnitude, impact, and techniques. In this paper, we conduct the first systematic study on 212 real-world Mallas, uncovering their proliferation in underground marketplaces and exposing their operational modalities. Our study discloses the Malla ecosystem, revealing its significant growth and impact on today's public LLM services. Through examining 212 Mallas, we uncovered eight backend LLMs used by Mallas, along with 182 prompts that circumvent the protective measures of public LLM APIs. We further demystify the tactics employed by Mallas, including the abuse of uncensored LLMs and the exploitation of public LLM APIs through jailbreak prompts. Our findings enable a better understanding of the real-world exploitation of LLMs by cybercriminals, offering insights into strategies to counteract this cybercrime.
研究の動機と目的
- Mallaエコシステムとそれが市場とホスティングプラットフォーム全体でどのように成長しているかを特徴づける。
- Mallaサービスの主要な関係者、収益化モデル、運用ワークフローを特定する。
- 保護回避に用いられる技術を分析する。ジャイルブレイクプロンプトや検閲されていないLLMを含む。
- Mallaサービスとプロジェクトによって生成される悪意あるコンテンツの種類と品質を定量化する。
- Mallaベースのサイバー犯罪に対する防御策と対策の検討に資する洞察を提供する。
提案手法
- 地下市場とフォーラム9カ所から212のMallaサンプルを収集する(L_sデータセット)と、2つのLLMAホスティングプラットフォーム(D_pデータセット)。
- バックエンドLLM、悪用された公開API、悪意あるプロンプト(P_m、P_j)などのアーティファクトを抽出する。
- 不透明なアーキテクチャを持つケースのバックエンドLLMを推定するためのリバースエンジニアリングツールを開発する。
- Mallaサービス、プロジェクト、ジャイルブレイクプロンプト、プロンプトとレスポンスの対を含む包括的なデータセットを構築する。
- Mallaのワークフロー、ホスティング手法、収益化戦略の質的・量的分析を実施する。
- 倫理審査と影響を受けたベンダーへの責任ある公開を通じて、所見を相互検証する。
実験結果
リサーチクエスチョン
- RQ1Mallaエコシステムの中で鍵となるプレーヤーは誰で、どの程度活発か。
- RQ2地下市場とホスティングプラットフォームでMallaはどのように編成・ホスティング・マーケティング・収益化されているか。
- RQ3悪党はLLMを悪用してMallaサービスを構築するためにどのような技術を使うか(例:ジャイルブレイク、検閲されていないモデル)?
- RQ4Mallaサービスはマルウェア、フィッシングメール、フィッシングサイトの生成にどれくらい効果があり、経済性はどうか。
主な発見
- Malla掲載は2023年4月から10月にかけて9市場で急増しており、エコシステムの成長が速いことを示している。
- 8つのバックエンドLLMがMallaサービスを動かすことが特定され、5つの公開LLM APIで182件の distinct jailbreak prompts が観測された。
- 212のMallaサンプルは45件の悪意あるプロンプト、182件のジャイルブレイクプロンプト、複数のサービスで検知された検閲されていないLLMの使用の証拠を生んだ。
- 一部のMallasは高品質なマルウェアを提供し、コンパイル可能でVirusTotalを回避できる一方、他のものは読取可能なフィッシングメールと運用可能なフィッシングサイトを生成する。
- WormGPT単独で3か月間に$28,000超を生み出しており、Mallaベンダーに対する実質的な金銭的インセンティブが大きいことを強調している。
- OpenAI APIがジャイルブレイクの標的として最も頻繁で、特に gpt-3.5-turbo が多く、ベンダーレベルのリスクを強調している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。