[論文レビュー] Misinformation Has High Perplexity
本稿では、信頼できる証拠でプロンプトされた大規模言語モデル(LM)の perplexity を活用して、ラベルなしで誤情報の事実確認を行う手法を提案する。誤った主張は真実の主張よりも顕著に高い perplexity を示すことが実証されており、新しく公開された2つの新型コロナウイルス関連のテストセットにおいて、教師ありモデルと同等の性能を達成している。主な貢献は、証拠の品質を絞り込むことの重要性である。
Debunking misinformation is an important and time-critical task as there could be adverse consequences when misinformation is not quashed promptly. However, the usual supervised approach to debunking via misinformation classification requires human-annotated data and is not suited to the fast time-frame of newly emerging events such as the COVID-19 outbreak. In this paper, we postulate that misinformation itself has higher perplexity compared to truthful statements, and propose to leverage the perplexity to debunk false claims in an unsupervised manner. First, we extract reliable evidence from scientific and news sources according to sentence similarity to the claims. Second, we prime a language model with the extracted evidence and finally evaluate the correctness of given claims based on the perplexity scores at debunking time. We construct two new COVID-19-related test sets, one is scientific, and another is political in content, and empirically verify that our system performs favorably compared to existing systems. We are releasing these datasets publicly to encourage more research in debunking misinformation on COVID-19 and other topics.
研究の動機と目的
- 新型コロナウイルスパンデミックのような急激に進行する出来事において、ラベル付きデータの不足を解決すること。
- 人為的アノテーションデータやメタ情報に依存しないラベルなしアプローチの開発。
- 真実に基づいた言語モデルからの perplexity が、主張の虚偽性を信頼できる指標として機能するかを検証すること。
- 証拠の絞り込みを用いて、取得した支援情報の品質を向上させることで、事実確認の性能を向上させること。
- 今後の研究を支援するため、科学的および政治的新型コロナウイルス関連の主張を対象とした2つの新しいドメイン特化テストセットを公開すること。
提案手法
- 主張との文書類似度を用いて、科学的およびニュース資料から信頼できる証拠を抽出する。
- 抽出した証拠で事前に学習された言語モデルをプロンプトし、真実の知識に基づいて固定化する。
- プロンプトされた言語モデルを用いて、各主張の perplexity スコアを計算し、証拠下での主張の妥当性を評価する。
- 低品質またはノイズの多い証拠を除去するための絞り込みステップを適用し、プロンプトされたモデルの信頼性を向上させる。
- perplexity を虚偽性の代理指標として使用:高い perplexity は誤情報の可能性が高いかを示す。
- 既存の手法と比較して、2つの新しいテストセット(科学的および政治的)でシステムの性能を評価する。
実験結果
リサーチクエスチョン
- RQ1真実の証拠でプロンプトされた言語モデルからの perplexity は、ラベルなし設定において、誤った主張と真実の主張を効果的に区別できるか?
- RQ2証拠の品質が perplexity を用いた事実確認システムの性能に与える影響は何か?
- RQ3本手法は、新しく出現した誤情報に対して、既存のラベルなしまたは教師ありベースラインを上回る性能を示すか?
- RQ4perplexity を虚偽性の指標として用いる際の失敗モードは何か、特に非標準的な文構造を含む主張においては?
- RQ5科学的主張と政治的主張の両方のドメインに一般化可能か?
主な発見
- 誤った主張は、常に真実の主張よりも顕著に高い perplexity を示し、誤った主張の平均は178.2~556.2、真実の主張は10未満のテストセットで確認された。
- LM デバッキング手法は、教師ありベースラインと同等の性能を達成しており、特に科学的テストセットでは F1-Macro で11.1%高い性能を示した。
- 証拠の絞り込みは全体の性能を向上させ、高品質な証拠が効果的な事実確認に不可欠であることを示している。
- 学術論文からの高品質な証拠と比較して、検証されていないニュースソースからの証拠が質が低い政治的主張に対して、モデルの性能が劣ることが判明した。
- 誤差分析から、異常な文構造や否定表現を含む主張はモデルを誤導する可能性があることが明らかになり、文の質と虚偽性を分離する必要があることが示唆された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。