QUICK REVIEW

[論文レビュー] Fake News Detectors are Biased against Texts Generated by Large Language Models

Jinyan Su, Terry Yue Zhuo|arXiv (Cornell University)|Sep 15, 2023

Misinformation and Its Impacts被引用数 12

ひとこと要約

この論文は、偽情報検出器が LLM 生成コンテンツを偽として分類する傾向があることを明らかにし、LLM-paraphrased real news を用いた敵対的訓練によるデバイアス除去を提案し、新しい GossipCop++ および PolitiFact++ データセットによって裏付けられている。

ABSTRACT

The spread of fake news has emerged as a critical challenge, undermining trust and posing threats to society. In the era of Large Language Models (LLMs), the capability to generate believable fake content has intensified these concerns. In this study, we present a novel paradigm to evaluate fake news detectors in scenarios involving both human-written and LLM-generated misinformation. Intriguingly, our findings reveal a significant bias in many existing detectors: they are more prone to flagging LLM-generated content as fake news while often misclassifying human-written fake news as genuine. This unexpected bias appears to arise from distinct linguistic patterns inherent to LLM outputs. To address this, we introduce a mitigation strategy that leverages adversarial training with LLM-paraphrased genuine news. The resulting model yielded marked improvements in detection accuracy for both human and LLM-generated news. To further catalyze research in this domain, we release two comprehensive datasets, exttt{GossipCop++} and exttt{PolitiFact++}, thus amalgamating human-validated articles with LLM-generated fake and real news.

研究の動機と目的

人間が書いた偽情報と LLM が生成した偽情報の両方に対して、偽情報検出器の現実的な評価を動機づける。
検出器の LLM 生成コンテンツに対する偏りを特徴づける。
検出された偏りの根底にある可能性のある言語的特徴（NELA）を調査する。
LLM-paraphrased real news を用いた敵対的訓練によるデバイアス除去手法を開発する。
ベンチマークおよび再現のための新しいデータセット（GossipCop++ および PolitiFact++）を提供する。

提案手法

偽ニュース検出のための Pre-LLM および LLM 時代のタスク定式化を定義する。
ChatGPT を用いた Structured Mimicry Prompting (SMP) による LLM 合成コンテンツを生成して PolitiFact++ および GossipCop++ データセットを作成する。
HR、HF、MF のサブセットで RoBERTa、BERT、ELECTRA、ALBERT、DeBERTa の複数の検出器を評価する。
NELA-content 特徴量と統計的検定（例：Tukey 対比較）を用いて検出器の挙動を分析し、偏りの原因を特定する。
LLM-paraphrased real news を用いた敵対的訓練ベースのデバイアス除去戦略を提案する。
人間作成および LLM 作成コンテンツ全体に対する性能変化を通じてデバイアス除去の影響を評価する。

Figure 1: SMP : Prompting LLMs to generate fake news articles.

実験結果

リサーチクエスチョン

RQ1RQ1: PolitiFact++ および GossipCop++ において、人間作成の実ニュース、人間作成の偽ニュース、そして LLM 生成の偽ニュースコンテンツ全般で偽情報検出器はどれくらいうまく機能するか？
RQ2RQ2: なぜ検出器は LLM 生成ニュースに偏りを示すのか、そしてこの偏りと相関する特徴は何か？
RQ3RQ3: 偏りは緩和できるのか、そして LLM-paraphrased real news を用いた敵対的訓練はコンテンツ種別間の検出にどのように影響するのか？

主な発見

検出器は LLM 生成コンテンツに対して偏りを持ち、しばしば真実の LLM 出力を偽として誤分類する。
NELA-content 特徴は、人間作成の偽ニュースとLLM生成の偽ニュースの間に顕著な差を示し、検出器がLLM出力に特有の言語パターンに依存している可能性を示唆している。
回帰ベースのモデルを用いたデバイアス除去は性能を変化させ、人間作成の偽ニュースの検出を改善する一方で、LLM生成ケースでは時に低下させる。
LLM-paraphrased real news を用いた敵対的訓練は一般化を向上させ、データセット全体で人間作成およびLLM生成コンテンツの検出を強化する。
二つの拡張データセット、GossipCop++ および PolitiFact++ は、オリジナルの人間作成記事とLLM合成コンテンツをペアリングして検出器をベンチマークする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。