[论文解读] Zero-shot Text Classification With Generative Language Models
本文展示一种基于生成式语言模型的零-shot文本分类方法,将任务表述为自然语言的多项选择题,从而在没有专门的任务头的情况下实现对新任务的适应,并在六个数据集上相对于基线取得提升。
This work investigates the use of natural language to enable zero-shot model adaptation to new tasks. We use text and metadata from social commenting platforms as a source for a simple pretraining task. We then provide the language model with natural language descriptions of classification tasks as input and train it to generate the correct answer in natural language via a language modeling objective. This allows the model to generalize to new classification tasks without the need for multiple multitask classification heads. We show the zero-shot performance of these generative language models, trained with weak supervision, on six benchmark text classification datasets from the torchtext library. Despite no access to training data, we achieve up to a 45% absolute improvement in classification accuracy over random or majority class baselines. These results show that natural language can serve as simple and powerful descriptors for task adaptation. We believe this points the way to new metalearning strategies for text problems.
研究动机与目标
- 通过使用自然语言描述来激发对新文本分类任务的零-shot模型适应。
- 在多样化的弱监督任务上对生成式语言模型进行预训练,以模拟多种N路分类任务。
- 评估对六个标准文本分类基准的零-shot迁移,并分析模型规模和数据规模的影响。
- 探讨类别描述质量对性能和可控性的影响,并讨论局限性与未来方向。
提出的方法
- 将文本分类重新表述为带有自然语言类别描述的多项选择题回答任务。
- 在一个大型弱监督任务(OpenWebText带标题预测)上对GPT-2模型进行预训练,以学习从一组自然语言选项中选择描述性标签。
- 在输入文档前置选定的类别描述列表,并通过语言建模目标训练模型生成正确的类别文本。
- 使用学习得到的位置嵌入和特殊标记来分隔问题、文本和答案段,并通过下一个标记预测损失进行优化。
- 通过提供全集合的自然语言类别并提示模型输出正确类别,在六个TorchText数据集上评估零-shot性能。
- 研究模型规模和数据规模的影响,并与随机、多数类和微调基线进行比较。
实验结果
研究问题
- RQ1单一的生成式语言模型是否可以利用自然语言任务描述适应未见的文本分类任务?
- RQ2模型规模和预训练数据规模如何影响跨多样数据集的零-shot分类准确性?
- RQ3类别描述质量对零-shot性能和输出有效性有何影响?
- RQ4在多大程度上,统一模型可以在不使用任务特定头的情况下保持有竞争力的准确性?
- RQ5基于生成模型的零-shot文本分类有哪些局限性和潜在的未来方向?
主要发现
| 模型 | SST-2 | AGNews | DBPedia | Yahoo | Amazon-2 | Yelp-2 | 平均 | SOTA |
|---|---|---|---|---|---|---|---|---|
| Random Guess | ~50.6 | 27.4 | 7.27 | 10.2 | 52.9 | 50.4 | 33.1 | |
| Majority Class | ~49.9 | 25.3 | 7.6 | 9.9 | 49.3 | 49.2 | 31.9 | |
| 117M All Data | 51.8 / 0 | 40.2 / .00 | 39.6 / .25 | 26.1 / .97 | 50.3 / .001 | 50.1 / 0 | 43.0 / .202 | |
| 355M 1/4 Data | 61.7 / 0 | 68.3 / .51 | 52.5 / .03 | 52.2 / .64 | 64.5 / .001 | 58.5 / 0 | 59.6 / .197 | |
| 355M All Data | 62.5 / 0 | 65.5 / .01 | 44.8 / .62 | 49.5 / .30 | 80.2 / 0 | 74.7 / 0 | 62.9 / .176 | |
| 355M Finetuned | 93.23 | 94.87 | 99.0 | 72.79 | 97.115 | 94.479 | 91.91 | SOTA |
| SOTA | 96.8* | 95.51* | 99.38* | 76.26** | 97.6* | 98.45* | 94 |
- 增大模型规模和增加预训练数据会提升跨任务的零-shot性能。
- 在DBPedia上,355M GPT-2模型在绝对值上相对随机基线提升高达45.2%。
- 在若干数据集(DBPedia、AGNews、Yahoo Answers)上,性能超过随机和多数基线,但仍低于微调或SOTA水平。
- 描述符质量显著影响准确性;错误的描述符会导致较大下降(高达27%绝对值)并增加词汇表外输出。
- 贪婪解码相比于诸如top-k/top-p的采样方法,产生的词汇表外输出较少。
- 罕见的词汇表外输出通常是错误组合或空字符串,且更大的模型可减少此类错误。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。