QUICK REVIEW

[论文解读] Analysis of Disinformation and Fake News Detection Using Fine-Tuned Large Language Model

Bohdan M. Pavlyshenko|arXiv (Cornell University)|Sep 9, 2023

Misinformation and Its Impacts被引用 13

一句话总结

本论文使用 PEFT/LoRA 对 Llama 2 进行微调，以执行多任务的错误信息分析，包括假新闻检测、宣传叙事高亮、事实核查、操控分析以及命名实体情感提取。它在 Twitter 数据上的假新闻检测和叙事分析显示定性结果以及一个显著的定量结果（F1=0.95）。

ABSTRACT

The paper considers the possibility of fine-tuning Llama 2 large language model (LLM) for the disinformation analysis and fake news detection. For fine-tuning, the PEFT/LoRA based approach was used. In the study, the model was fine-tuned for the following tasks: analysing a text on revealing disinformation and propaganda narratives, fact checking, fake news detection, manipulation analytics, extracting named entities with their sentiments. The obtained results show that the fine-tuned Llama 2 model can perform a deep analysis of texts and reveal complex styles and narratives. Extracted sentiments for named entities can be considered as predictive features in supervised machine learning models.

研究动机与目标

动机：在社交媒体和新闻流中检测错误信息和假新闻的必要性。
评估对 Llama 2 的微调模型是否能够在错误信息分析任务中执行多任务。
开发基于 PEFT/LoRA 的微调管道，使在小数据集上也能实现高效训练。

提出的方法

使用 PEFT/LoRA 进行 4-bit 量化，对 Llama 2-7B-chat 进行微调，并采用如 SFTTrainer 的训练器。
使用提示指令引导 LLM 分析文本中的错误信息，突出要点，进行摘要，并提取带情感的命名实体。
将假新闻数据集和俄罗斯宣传叙事的数据作为训练数据；将数据分为训练和验证集（其中 25% 用于验证）。
在包括错误信息分析、宣传叙事高亮、事实核查、假新闻检测、操控分析以及实体情感提取等任务上评估输出。

Figure 1: Time series of tweets for the query ’ukraine’.

实验结果

研究问题

RQ1对微调的 Llama 2 模型是否能够以结构化、潜在的 JSON 格式输出执行多任务的错误信息分析？
RQ2基于 PEFT/LoRA 的微调和 4-bit 量化是否能够在错误信息任务中实现有效、资源高效的适配？
RQ3提取的命名实体情感是否可作为后续媒体或市场分析模型的预测特征？
RQ4模型在识别和分析文本中的宣传叙事与操控方面的表现如何？
RQ5对错误信息分析的微调模型有哪些局限性和准确性担忧？

主要发现

对微调的 Llama 2 模型可以执行多任务文本分析并输出结构化结果。
该方法实现了带情感的命名实体提取，适用于下游模型。
PEFT/LoRA 与 4-bit 量化使在小数据集上进行成本有效的微调成为可能。
该模型在关于乌克兰及相关主题的摘录上展示了叙事分析和事实核查能力。
定性评估表明输出存在一些不准确之处，建议通过更好的数据集和 RLHF 进行改进。

Figure 2: Time series of tweets for the thematic field ’ukraine nazi’.

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。