Skip to main content
QUICK REVIEW

[論文レビュー] Analysis of Disinformation and Fake News Detection Using Fine-Tuned Large Language Model

Bohdan M. Pavlyshenko|arXiv (Cornell University)|Sep 9, 2023
Misinformation and Its Impacts被引用数 13
ひとこと要約

本研究は PEFT/LoRA を用いて Llama 2 を微調整し、偽情報分析を多機能に行えるようにする。含まれる項目は偽ニュース検出、プロパガンダの語りのハイライト、ファクトチェック、操作分析、固有表現の感情抽出。Twitter データ上で偽ニュース検出と語り分析において定性的な成果と顕著な定量結果(F1=0.95)を示す。

ABSTRACT

The paper considers the possibility of fine-tuning Llama 2 large language model (LLM) for the disinformation analysis and fake news detection. For fine-tuning, the PEFT/LoRA based approach was used. In the study, the model was fine-tuned for the following tasks: analysing a text on revealing disinformation and propaganda narratives, fact checking, fake news detection, manipulation analytics, extracting named entities with their sentiments. The obtained results show that the fine-tuned Llama 2 model can perform a deep analysis of texts and reveal complex styles and narratives. Extracted sentiments for named entities can be considered as predictive features in supervised machine learning models.

研究の動機と目的

  • ソーシャルメディアとニュースの流れにおける偽情報と偽ニュースを検出する必要性を動機づける。
  • 微調整済みの Llama 2 LLM が偽情報分析タスクを複数同時に遂行できるかを評価する。
  • 小規模なデータセットでの効率的な学習を可能にする PEFT/LoRA ベースの微調整パイプラインを開発する。

提案手法

  • 4-bit 量子化と SFTTrainer のようなトレーナーを用いて PEFT/LoRA で Llama 2-7B-chat をファインチューニングする。
  • プロンプト指示を用いて LLM に偽情報を分析させ、要点を強調し、要約し、感情を付与した固有表現を抽出させる。
  • 偽ニュースデータセットおよびロシアのプロパガンダ語説のデータをトレーニングデータに組み込み、データを訓練用と検証用に分割する(検証用は 25%)。
  • 偽情報分析、プロパガンダ語表現のハイライト、ファクトチェック、偽ニュース検出、操作分析、固有表現の感情抽出を含むタスクで出力を評価する。
Figure 1: Time series of tweets for the query ’ukraine’.
Figure 1: Time series of tweets for the query ’ukraine’.

実験結果

リサーチクエスチョン

  • RQ1微調整された Llama 2 モデルは、構造化された(おそらく JSON 形式の)出力を伴うマルチタスク偽情報分析を実行できるか。
  • RQ2PEFT/LoRA ベースのファインチューニングと 4-bit 量子化は、偽情報タスクへの効果的で資源効率の高い適応を可能にするか。
  • RQ3抽出された固有表現の感情は、メディアや市場分析の下流モデルの予測特徴として有用か。
  • RQ4モデルはテキスト内のプロパガンダ語表現と操作をどれだけうまく識別・分析できるか。
  • RQ5偽情報分析のための微調整モデルの制限と精度の懸念は何か。

主な発見

  • 微調整された Llama 2 モデルは、構造化された出力でマルチタスクのテキスト分析を実行できる。
  • このアプローチは、下流モデルに適した感情付きの固有表現の抽出を可能にする。
  • PAEFT/LoRA と 4-bit 量子化は、小規模データセットでのコスト効果の高いファインチューニングを可能にする。
  • モデルはウクライナ関連の抜粋などに対して、語り分析とファクトチェックの能力を示した。
  • 定性的評価は出力にいくつかの不正確さを指摘しており、より良いデータセットと RLHF による改善を示唆している。
Figure 2: Time series of tweets for the thematic field ’ukraine nazi’.
Figure 2: Time series of tweets for the thematic field ’ukraine nazi’.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。