Skip to main content
QUICK REVIEW

[论文解读] Clickbait Detection in Tweets Using Self-attentive Network

Yiwei Zhou|arXiv (Cornell University)|Oct 15, 2017
Misinformation and Its Impacts参考文献 26被引用 47
一句话总结

该论文提出了一种自注意力神经网络模型,将推文中的标题党检测任务重新定义为多分类任务,采用双向GRU和可学习注意力机制。该方法通过端到端学习实现,无需人工特征工程,取得了SOTA性能,MSE为0.033,在Clickbait Challenge 2017中排名第一。

ABSTRACT

Clickbait detection in tweets remains an elusive challenge. In this paper, we describe the solution for the Zingel Clickbait Detector at the Clickbait Challenge 2017, which is capable of evaluating each tweet's level of click baiting. We first reformat the regression problem as a multi-classification problem, based on the annotation scheme. To perform multi-classification, we apply a token-level, self-attentive mechanism on the hidden states of bi-directional Gated Recurrent Units (biGRU), which enables the model to generate tweets' task-specific vector representations by attending to important tokens. The self-attentive neural network can be trained end-to-end, without involving any manual feature engineering. Our detector ranked first in the final evaluation of Clickbait Challenge 2017.

研究动机与目标

  • 为解决推文中标题党的检测挑战,此类内容通过制造好奇心缺口误导用户,降低内容质量。
  • 通过将标题党建模为分级回归问题,改进现有二分类方法,以反映标题党强度的差异。
  • 开发一种端到端可训练的模型,自动识别对标题党预测有贡献的关键标记,无需人工特征工程。
  • 在Clickbait Challenge 2017基准上,实现多个指标(MSE、F1分数、准确率和推理速度)的高性能表现。

提出的方法

  • 基于挑战中提供的标注方案,将标题党检测任务从回归重新定义为多分类任务。
  • 使用双向门控循环单元(biGRU)将推文文本编码为上下文隐藏状态。
  • 在biGRU隐藏状态上应用自注意力机制,通过关注关键标记生成任务特定的动态表示。
  • 使用Adam优化器配合梯度裁剪和Dropout正则化,进行端到端训练。
  • 使用在维基百科上预训练的100维GloVe词嵌入进行初始化,并在训练过程中进行微调。
  • 通过Hyperopt在5折交叉验证上对超参数(学习率、Dropout、批量大小、梯度裁剪)进行优化,使用数据集C。

实验结果

研究问题

  • RQ1自注意力神经网络能否有效建模推文中标题党的分级特性,从而超越传统二分类方法?
  • RQ2注意力机制在不依赖外部特征的情况下,能在多大程度上通过聚焦语言学上显著的标记来提升标题党检测性能?
  • RQ3与人工特征工程相比,使用自注意力的端到端训练在推文标题党检测任务中的性能和效率如何?
  • RQ4统一模型能否在真实世界基准上实现多个评估指标(MSE、F1、准确率和推理时间)的高性能表现?

主要发现

  • Zingel标题党检测器在最终评估中实现了0.033的MSE,排名第一,显著优于基线MSE 0.044。
  • 该模型实现了0.683的F1分数和0.856的准确率,表明在所有指标上均表现出强劲的分类性能。
  • 检测器运行时间仅为3分钟27秒,表明具有很高的推理效率。
  • 在biGRU编码表示上应用自注意力机制,实现了无需人工特征工程的有效端到端学习。
  • 该模型结合了数据集A和数据集C进行训练,利用所有可用的标注数据以提升泛化能力。
  • 通过Hyperopt进行超参数优化,确定了最优设置:批量大小32,Dropout 0.5,初始学习率0.005,梯度裁剪阈值2。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。