QUICK REVIEW

[论文解读] Heavy-tailed Representations, Text Polarity Classification & Data Augmentation

Hamid Jalalzai, Paolo Colombo|arXiv (Cornell University)|Jan 1, 2020

Sentiment Analysis and Opinion Mining参考文献 56被引用 8

一句话总结

本文提出了一种学习重尾表征（LHTR）的方法，这是一种对抗性方法，可将 BERT 表征转换为适合多变量极值理论（EVT）的重尾分布。通过利用尾部的尺度不变性，LHTR 实现了对极端文本序列的改进分类，并提出了一种新颖的标签保持型数据增强方法 GENELIEX，该方法通过缩放表征生成语义上合理、情感不变的文本。该方法提升了情感分类的准确率，并生成了具有受控属性的高质量合成文本。

ABSTRACT

The dominant approaches to text representation in natural language rely on learning embeddings on massive corpora which have convenient properties such as compositionality and distance preservation. In this paper, we develop a novel method to learn a heavy-tailed embedding with desirable regularity properties regarding the distributional tails, which allows to analyze the points far away from the distribution bulk using the framework of multivariate extreme value theory. In particular, a classifier dedicated to the tails of the proposed embedding is obtained which performance outperforms the baseline. This classifier exhibits a scale invariance property which we leverage by introducing a novel text generation method for label preserving dataset augmentation. Numerical experiments on synthetic and real text data demonstrate the relevance of the proposed framework and confirm that this method generates meaningful sentences with controllable attribute, e.g. positive or negative sentiment.

研究动机与目标

为解决在极端长度或罕见文本序列上的文本分类鲁棒性不足的问题，通过建模其尾部分布行为。
开发一种将标准 BERT 表征转换为满足极值理论（EVT）所需正则变异性假设的重尾分布的方法。
在文本表征的尾部区域实现尺度不变分类，从而提升对罕见或长序列的性能。
设计一种新颖的数据增强框架 GENELIEX，通过在学习到的重尾空间中缩放表征，生成语义上合理、标签一致的文本。
通过实证验证，极端序列（更长、更难分类）在 BERT 和 LHTR 表征中系统性地与高范数值相关联。

提出的方法

LHTR 使用对抗性训练过程，学习从 BERT 表征到满足多变量极值理论（EVT）所需正则变异性条件的重尾分布的映射。
该方法确保变换后表征 Z 的尾部分布近似为幂律，从而支持基于 EVT 的极端点分析。
在尾部区域 {||x||∞ ≥ t} 上训练一个专门的角分类器 g，仅利用向量的方向，利用尺度不变性以提升对极端输入的分类性能。
GENELIEX 通过在极端表征上应用位似变换（缩放）hλ(x) = λx（λ ≥ 1）生成合成序列，由于分类器 g 的尺度不变性，可保持预测标签不变。
该框架在 Yelp 和 Amazon 情感数据集上进行了验证，LHTR 表征显示出更优的分类性能，GENELIEX 生成了连贯且情感保持不变的文本。
统计检验（Kolmogorov-Smirnov）证实，LHTR 中的极端序列平均长度显著长于普通序列，支持长度与极端性的关联。

实验结果

研究问题

RQ1BERT 表征能否被转换为满足多变量极值理论所需正则变异性条件的重尾分布？
RQ2在变换后表征的角分量上训练的分类器（LHTR）是否在极端文本序列上优于标准分类器？
RQ3能否利用学习到的重尾表征在尾部区域的尺度不变性，生成新的、标签一致的文本序列，而无需依赖外部语言资源？
RQ4长序列或罕见文本序列是否在 BERT 和 LHTR 空间中系统性地与高范数表征相关联？
RQ5LHTR 表征中是否存在序列长度与极端性之间的可度量相关性？该相关性是否与模型难度相关？

主要发现

LHTR 有效将 BERT 表征转换为重尾分布，经附录 B.5 中的统计检验确认，满足 EVT 所需的正则变异性假设。
在 LHTR 表征上训练的分类器在极端序列（||x||∞ ≥ t）上的准确率高于在原始 BERT 表征上训练的基线分类器，表明对尾部输入具有更强的鲁棒性。
GENELIEX 通过缩放极端表征（λ ≥ 1）生成具有受控情感极性的合成序列，定性评估表明生成的句子语义合理且保留原始情感。
LHTR 表征中的极端序列平均长度显著长于非极端序列，Kolmogorov-Smirnov 检验在 Yelp 和 Amazon 数据集的正类与负类上均拒绝了长度分布相等的原假设（p < 0.05）。
BERT 范数与 LHTR 范数之间存在强正相关性，表明 LHTR 变换保留了样本按范数大小的相对排序。
BERT 中的长序列更可能在 LHTR 中被分类为极端样本，且这些序列在 BERT 自身分类头中也表现出更低的置信度分数，证实其建模难度更高。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。