[論文レビュー] The Radicalization Risks of GPT-3 and Advanced Neural Language Models
この論文は、過激派による GPT-3 の武器化の可能性を評価し、信頼性の高いインタラクティブなプロパガンダを生成し、オンラインの過激化に影響を与え得ることを示し、緩和策を提案している。
In this paper, we expand on our previous research of the potential for abuse of generative language models by assessing GPT-3. Experimenting with prompts representative of different types of extremist narrative, structures of social interaction, and radical ideologies, we find that GPT-3 demonstrates significant improvement over its predecessor, GPT-2, in generating extremist texts. We also show GPT-3's strength in generating text that accurately emulates interactive, informational, and influential content that could be utilized for radicalizing individuals into violent far-right extremist ideologies and behaviors. While OpenAI's preventative measures are strong, the possibility of unregulated copycat technology represents significant risk for large-scale online radicalization and recruitment; thus, in the absence of safeguards, successful and efficient weaponization that requires little experimentation is likely. AI stakeholders, the policymaking community, and governments should begin investing as soon as possible in building social norms, public policy, and educational initiatives to preempt an influx of machine-generated disinformation and propaganda. Mitigation will require effective policy and partnerships across industry, government, and civil society.
研究の動機と目的
- GPT-3 を過激思想の文章生成に武器化して、過激化に影響を与えることができるかを評価する。
- 過激派の語義を横断する対話的で、情報提供的かつ説得力のあるコンテンツを GPT-3 が生成する能力を評価する。
- プロンプト環境(ゼロショット、少数ショット、多言語)が出力の偏りおよび過激化の潜在性にどう影響するかを検討する。
- 産業界、政府、民間社会向けの緩和戦略と政策提言を特定する。
提案手法
- ビジョン倫理の一貫性、正確性、信頼性を検証するために、右派過激思想の語りから適合させたプロンプトを使用する。
- ゼロショットおよび few-shot プロンプティングを用いて、コンテンツ生成と偏りを評価する。
- 白人至上主義、QAnon、Atomwaffen Division など複数の過激派領域と多言語出力にわたる分析。
- 生成能力と範囲の改善を示すための GPT-2 との比較。
- 出力を過激化メカニズムとオンラインコミュニティのダイナミクスに結びつける評価フレームワーク。
実験結果
リサーチクエスチョン
- RQ1GPT-3 は GPT-2 と比較して、イデオロギー的一貫性のある過激思想コンテンツをどれだけ効果的に生成できるか?
- RQ2GPT-3 はオンラインの過激化と勧誘を支援し得る、対話的で情報性が高く影響力のある材料を生成できるか?
- RQ3少数ショットのプロンプトは特定の陰謀論や過激派の世界観にGPT-3をどの程度偏らせるか?
- RQ4強力な言語モデルによるリスクを抑制するために必要な緩和戦略(政策、検知、リテラシー)は何か?
主な発見
- GPT-3 は過激思想テキストの生成において GPT-2 より顕著な改善を示す。
- GPT-3 は、過激化を促す人々を暴力的な極右思想へ向かわせるインタラクティブで情報提供的かつ影響力のある内容を模倣するテキストを生成できる。
- safeguard がない場合、規制されていないコピーキャットモデルは大規模なオンライン過激化と勧誘の重大なリスクをもたらす。
- Few-shot プロンプティングは、陰謀論的コンテンツやイデオロギー的一貫性のある物語への出力を偏らせる可能性がある。
- GPT-3 は多言語理解が堅牢であり、ロシア語などの言語で首尾一貫したコンテンツを生成できる。
- GPT-3 は既存の過激派フォーラムを拡張したり、マニフェストを含む新しいスレッドを作成したりして、ターゲットとする思想と整合することができる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。