[論文レビュー] Disinformation Detection: An Evolving Challenge in the Age of LLMs
この論文は、現状の誤情報検出器がLLM生成の誤情報を頑健に検出できるかを評価し、検出器としてのLLMsを検討し、検出を向上させるためのchain-of-thought promptingを提案する。新しいLLM生成データセットを裏付けとして提示。
The advent of generative Large Language Models (LLMs) such as ChatGPT has catalyzed transformative advancements across multiple domains. However, alongside these advancements, they have also introduced potential threats. One critical concern is the misuse of LLMs by disinformation spreaders, leveraging these models to generate highly persuasive yet misleading content that challenges the disinformation detection system. This work aims to address this issue by answering three research questions: (1) To what extent can the current disinformation detection technique reliably detect LLM-generated disinformation? (2) If traditional techniques prove less effective, can LLMs themself be exploited to serve as a robust defense against advanced disinformation? and, (3) Should both these strategies falter, what novel approaches can be proposed to counter this burgeoning threat effectively? A holistic exploration for the formation and detection of disinformation is conducted to foster this line of research.
研究の動機と目的
- 既存の誤情報検出技術のLLM生成誤情報に対する頑健性を評価する。
- LLMs自体がLLM生成の誤情報を検出できるかを調査する。
- 高度で混合コンテンツの誤情報検出を改善する新規 prompting ベースのアプローチを提案する。
提案手法
- 人間作成の偽ニュースをベースラインとして、3つの prompting 技法からなるLLM生成誤情報データセット(D_gpt_std, D_gpt_mix, D_gpt_cot)を構築する。
- 人間作成の誤情報を用いてRoBERTaベースの検出器をファインチューニングし、LLM生成の誤情報に対する性能を評価する。
- さまざまな prompting の下で検出器としての能力とばらつきを評価するために、ChatGPT/GPT-3.5およびGPT-4 をLLMsとして評価する。
- 誤情報検出に特化したchain-of-thought promptingを開発・適用し、LLMs に事実確認を導く。
- 検出性能に対する文脈要素(文字、場所、時間、出来事)の重要性を特定するアブレーション研究を実施する。
実験結果
リサーチクエスチョン
- RQ1RQ1: 既存の誤情報検出技術はLLM生成の誤情報に適しているか?
- RQ2RQ2: LLMs自体をそのような誤情報を検出するように適応できるか?
- RQ3RQ3: 従来手法が機能しない場合、先進的なLLM生成の誤情報に対抗する新規アプローチは何か?
主な発見
- ファインチューニングされた RoBERTa は単純なLLM生成の誤情報を良く検出するが、高度な prompting(例: chain-of-thought prompting)では誤分類が77.93%に達する場合がある。
- RoBERTa 検出器には政治的バイアスがあり、中心寄りの内容を真と誤りとして liberal や conservative よりも多く誤分類する。
- Vanilla ChatGPT は自分自身が生成した誤情報を検出するのが難しいが、慎重に設計された chain-of-thought prompting を用いると精度が向上する。
- GPT-4 は一般的にGPT-3.5 よりLLM生成の誤情報を検出する性能が高く、分析プロセスの開示を指示された場合に特にそうなる。
- 分析的推論(CoT)を誘導する prompting は誤分類を大幅に低減し、ablations で GPT-4 (all_scale) は D_gpt_std で 4.7%、D_gpt_mix で 11.9%、D_gpt_cot で 22.2% を達成した。
- 本研究は3つのLLM生成データセットを提供し、高度な prompting と推論プロンプトがLLM生成の誤情報検出を強化できることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。