QUICK REVIEW

[论文解读] TimeLMs: Diachronic Language Models from Twitter

Daniel Loureiro, Francesco Barbieri|arXiv (Cornell University)|Feb 8, 2022

Data Stream Mining Techniques被引用 26

一句话总结

TimeLMs 以三个季度更新的方式训练并发布基于 RoBERTa-base 的时间感知语言模型，训练数据来自 Twitter，结果显示较旧模型在未来数据上的表现下降，持续更新带来收益。

ABSTRACT

Despite its importance, the time variable has been largely neglected in the NLP and language model literature. In this paper, we present TimeLMs, a set of language models specialized on diachronic Twitter data. We show that a continual learning strategy contributes to enhancing Twitter-based language models' capacity to deal with future and out-of-distribution tweets, while making them competitive with standardized and more monolithic benchmarks. We also perform a number of qualitative analyses showing how they cope with trends and peaks in activity involving specific named entities or concept drift.

研究动机与目标

在像 Twitter 这样变化迅速的社交媒体中，阐明 diachronic、时间感知语言模型的需求。
证明持续、每三个月更新能够提升对未来/分布外推 tweets 的表现。
提供一个实用框架和工具，以实现 TimeLMs 的时间感知评估与使用。

提出的方法

构建一个基于 2018-2019 Twitter 数据训练的 RoBERTa-base 基线模型（2019-90M）。
每三个月持续用新收集的 Twitter 数据对更新后的模型进行再训练。
通过移除前 1% 最活跃用户、去重/近似重复、对提及（除已验证用户外）进行匿名化来清洗数据。
用 TweetEval 基准和时间切分测试集上的伪困惑度进行模型评估。
提供一个 Python 接口，用于在不同时间特定模型之间计算伪困惑度和掩码预测。

实验结果

研究问题

RQ1时间特定的语言模型在处理 Twitter 数据的 diachronic 变化方面，是否优于静态基线？
RQ2持续按季度更新对较新时间段与较旧时间段的表现有何影响？
RQ3数据量增加与时效性提升对时间感知语言模型的改进作用分别有多大？
RQ4是否存在一个可行的工具接口，能够方便地对 TimeLMs 进行时间感知评估与使用？

主要发现

时间感知模型在 TweetEval 任务上与基线和 BERTweet 相比表现具竞争力，TimeLM-21 在多项任务上表现良好。
伪困惑度结果显示新模型通常在当代测试数据上优于较旧模型，反映随时间的退化减少。
按季度更新能够减少随时间的退化，尽管在某些设置下，较旧的时期也从更大累计数据中受益。
一个对照实验表明，增加训练数据量可以提升性能，而时效性主要惠及更近的测试集。
定性示例表明时间特定模型在预测与时期相关的掩码标记（如 COVID 时代、Squid Game）时，优于更旧的模型。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。