[论文解读] Beyond Prompting: Making Pre-trained Language Models Better Zero-shot Learners by Clustering Representations
该论文提出 SimPTC,一种基于聚类的简单方法,通过使用类名初始化的贝叶斯高斯混合模型对未标注文本嵌入进行分组,从而提升零样本文本分类性能。尽管方法简单,SimPTC 仍实现了最先进性能,在 14 个多样化数据集上,相比基于提示的方法,宏 F1 值平均绝对提升 20%,且无需微调或人工设计提示。
Recent work has demonstrated that pre-trained language models (PLMs) are zero-shot learners. However, most existing zero-shot methods involve heavy human engineering or complicated self-training pipelines, hindering their application to new situations. In this work, we show that zero-shot text classification can be improved simply by clustering texts in the embedding spaces of PLMs. Specifically, we fit the unlabeled texts with a Bayesian Gaussian Mixture Model after initializing cluster positions and shapes using class names. Despite its simplicity, this approach achieves superior or comparable performance on both topic and sentiment classification datasets and outperforms prior works significantly on unbalanced datasets. We further explore the applicability of our clustering approach by evaluating it on 14 datasets with more diverse topics, text lengths, and numbers of classes. Our approach achieves an average of 20% absolute improvement over prompt-based zero-shot learning. Finally, we compare different PLM embedding spaces and find that texts are well-clustered by topics even if the PLM is not explicitly pre-trained to generate meaningful sentence embeddings. This work indicates that PLM embeddings can categorize texts without task-specific fine-tuning, thus providing a new way to analyze and utilize their knowledge and zero-shot learning ability.
研究动机与目标
- 在无需任务特定微调或提示工程的情况下,提升零样本文本分类性能。
- 探究在 PLM 嵌入空间中聚类是否能更好地利用预训练模型的知识。
- 在主题、文本长度和类别数量各不相同的多样化数据集上评估该方法。
- 分析不同 PLM 嵌入空间(包括未显式为句子嵌入训练的模型)的聚类特性。
- 提供一种轻量、高效的替代方案,以替代复杂的提示方法或自训练流水线。
提出的方法
- 使用 SimCSE 句子嵌入作为文本和类别名称的基础表示。
- 通过生成锚定句子并计算其嵌入,利用类别名称初始化聚类中心。
- 应用贝叶斯高斯混合模型(BGMM)对未标注文本嵌入进行拟合,采用类特定的高斯分布。
- 基于文本嵌入与类别锚点嵌入之间的余弦相似度,分配初始聚类。
- 通过期望最大化算法优化聚类参数,且不更新 PLM。
- 在各类之间共享协方差矩阵,以实现正则化并提升泛化能力。
实验结果
研究问题
- RQ1在无需提示或微调的情况下,能否通过在 PLM 嵌入空间中聚类来提升零样本文本分类性能?
- RQ2在类别数量和文本长度各异的多样化数据集上,SimPTC 相较于基于提示的方法表现如何?
- RQ3即使未为句子嵌入预训练,PLM 嵌入是否仍能自然地按主题聚类?
- RQ4不同 PLM 架构和大小如何影响聚类质量和零样本性能?
- RQ5基于聚类的零样本学习存在哪些局限性,特别是在处理抽象或罕见类别名称时?
主要发现
- 在 14 个多样化数据集上,SimPTC 相较于基于提示的零样本学习,宏 F1 值平均绝对提升 20%。
- 在类别不平衡的数据集上,SimPTC 显著优于先前方法,表现出对类别不平衡的强鲁棒性。
- 即使 RoBERTa-large 未为句子嵌入预训练,其嵌入空间中仍能形成清晰分离的主题聚类。
- SimCSE 嵌入可按子主题形成子聚类(例如,亚马逊评论中“书籍”与“产品”的区分),揭示出线性语义结构。
- 使用 SimPTC 时,T5-3B 等大模型在某些数据集上的表现可匹配或超过完全监督的 BERT。
- 该方法在处理抽象类别名称(如“主观”与“客观”)时表现较差,表明其在处理语义抽象方面存在关键局限性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。