[論文レビュー] Exploring the Deceptive Power of LLM-Generated Fake News: A Study of Real-World Detection Challenges
本論文は条件付き変分自己符号化器風のプロンプティング戦略 VLPrompt を提案し、追加データなしで説得力のある LLM 生成偽ニュースを作成、VLPFN データセットを作成/公開し、このデータに対して人間と機械の検出手法を評価する。
Recent advancements in Large Language Models (LLMs) have enabled the creation of fake news, particularly in complex fields like healthcare. Studies highlight the gap in the deceptive power of LLM-generated fake news with and without human assistance, yet the potential of prompting techniques has not been fully explored. Thus, this work aims to determine whether prompting strategies can effectively narrow this gap. Current LLM-based fake news attacks require human intervention for information gathering and often miss details and fail to maintain context consistency. Therefore, to better understand threat tactics, we propose a strong fake news attack method called conditional Variational-autoencoder-Like Prompt (VLPrompt). Unlike current methods, VLPrompt eliminates the need for additional data collection while maintaining contextual coherence and preserving the intricacies of the original text. To propel future research on detecting VLPrompt attacks, we created a new dataset named VLPrompt fake news (VLPFN) containing real and fake texts. Our experiments, including various detection methods and novel human study metrics, were conducted to assess their performance on our dataset, yielding numerous findings.
研究の動機と目的
- プロンプト戦略が人間の支援を受けた偽ニュースと自動生成の偽ニュースのギャップを狭められるかを評価する。
- 追加データ収集なしで文脈と文体を保持しつつ、説得力のある偽ニュースを生成する VLPrompt を開発する。
- 検出研究のため、実テキスト、人間生成の偽テキスト、および VLPrompt 生成の偽テキストからなる VLPFN データセットを作成・公開する。
- VLPrompt 作成データ上で、PLMs、SOTA 検出器、LoRa 調整済み LLM、ChatGPT-3.5 など幅広い検出モデルを評価する。
- 記事特性が欺瞞性と意思決定にどう影響するかを理解するため、人間評価指標を調査する。
提案手法
- VLPrompt を CVAE に着想を得たフレームワークとして提示し、実記事を潜在空間にエンコードし、トピック/テーマと文体/長さの制御を適用し、信じられる偽テキストへデコードする。
- ロールプレイモジュールを用いて、元の文体を維持しつつ主要要素の改変を特定の悪意あるテーマへ誘導する。
- 語彙だけでなく識別性を保証するため、実記事と偽記事の対をLLMsが検証する資格付与ステップを組み込み、適格な記事データセットを形成する。
- 欺瞞力・文章品質・影響力の可能性を評価する six human study metrics(Correctness、Neutral、Informative、Consistent、Intention、Detail)を導入する。
- 実際の医療/ニュースソースと公開ファクトチェック機関から VLPFN データセットを構築する。資格付け後、各グループあたり約180 件の LLM 生成記事をサンプリングする。
- 微調整済みの BERT/RoBERTa/FnBERT、Grover、DualEmo、Llama2-7b LoRa、Vicuna-7b LoRa、ChatGPT-3.5 を含む検出器のスペクトラムを評価する。
実験結果
リサーチクエスチョン
- RQ1VLPrompt は現在の検出器と人間の評価に挑戦する偽ニュースをどれだけ効果的に生成できるか。
- RQ2VLPrompt 生成データ上で、微調整済み PLMs、SOTA 検出器、LoRa 調整 LLM、ChatGPT-3.5 の検出性能はどの程度異なるか。
- RQ3人間の評価指標のうち、LLM 生成の偽ニュースを実ニュースと最もよく区別する信号は何か、生成パターンを検出に活用するにはどうすればよいか。
- RQ4VLPrompt とベースラインプロンプトの生成コストと実行回数など、実用的考慮事項はどうか。
主な発見
| モデル | ACC | F1 | PRC | RCL |
|---|---|---|---|---|
| BERT | 0.781 | 0.804 | 0.830 | 0.780 |
| RoBERTa | 0.764 | 0.821 | 0.732 | 0.934 |
| FnBERT | 0.579 | 0.729 | 0.576 | 0.994 |
| Grover | 0.818 | 0.792 | 0.813 | 0.773 |
| DualEmo | 0.842 | 0.813 | 0.820 | 0.805 |
| Llama2-7b + LoRa | 0.836 | 0.859 | 0.848 | 0.871 |
| Vicuna-7b + LoRa | 0.814 | 0.840 | 0.831 | 0.849 |
| ChatGPT 3.5 | 0.592 | 0.536 | 0.770 | 0.411 |
- VLPrompt は追加データ収集なしで適格な偽ニュースの生成を可能にし、詳細の喪失と文脈的一貫性の問題を解決する。
- VLPrompt ベースの生成と資格付けワークフローは、複数のプロンプト戦略で偽記事の sizable データセットを生み出し、カテゴリあたり約180 件の適格記事を提供する。
- 機械検出器は VLPrompt データで訓練した場合において多様なモデルで一般的に 0.86 未満の精度/F1 を示し、欺瞞の課題が継続する。
- LoRa で微調整された LLM(Llama2-7b LoRa および Vicuna-7b LoRa)は競争的な検出性能を示し、Llama2-7b LoRa の F1 は 0.859、精度は 0.836 に達する。
- 人間の評価者は Correctness と Intention でいくつかのプロンプトを非常に欺瞞的と評価し、Detail は手法間でばらつきを示した。アブレーションプロンプトは異なる強みを示した。
- 表3 はモデル間の検出精度を示し、トップの D u a l E mo が ACC 0.842、F1 0.813、次いで Llama2-7b LoRa が ACC 0.836、F1 0.859。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。