[论文解读] Unpaired Sentiment-to-Sentiment Translation: A Cycled Reinforcement Learning Approach
本文提出一种循环强化学习框架,包含中和模块和情感化模块,在无对齐数据上进行情感到情感的翻译,达到最先进的内容保留以及有竞争力的情感转移。
The goal of sentiment-to-sentiment "translation" is to change the underlying sentiment of a sentence while keeping its content. The main challenge is the lack of parallel data. To solve this problem, we propose a cycled reinforcement learning method that enables training on unpaired data by collaboration between a neutralization module and an emotionalization module. We evaluate our approach on two review datasets, Yelp and Amazon. Experimental results show that our approach significantly outperforms the state-of-the-art systems. Especially, the proposed method substantially improves the content preservation performance. The BLEU score is improved from 1.64 to 22.46 and from 0.56 to 14.06 on the two datasets, respectively.
研究动机与目标
- 将情感到情感翻译作为一种风格迁移形式,同时保留内容。
- 通过提出一个循环强化学习设置来克服缺乏并行数据。
- 通过中和模块明确将情感与内容分离,以提升翻译质量。
- 利用自注意力基础的情感分类器对模块进行预训练以启动学习。
- 在 Yelp 和 Amazon 评论数据集上展示更好的内容保留。
提出的方法
- 两模块结构:一个中和模块通过过滤情感词来提取非情感内容,另一个情感化模块将目标情感注入到中性内容中。
- 使用有监督目标对两模块进行预训练;用基于自注意力的情感分类器来引导中和。
- 情感化使用一个双解码器 seq2seq 框架,在目标情感条件下生成文本。
- 循环强化学习:使用策略梯度训练中和,奖励来自情感准确性和基于 BLEU 的内容保留,由情感化输出引导。
- 奖励通过情感置信度和 BLEU 的调和平均来引导学习(R = (1+β^2) * BLEU * Confid / (β^2 * BLEU + Confid)).
- 利用无配对数据(带情感标签的评论)进行训练,无需成对句对子。
实验结果
研究问题
- RQ1是否可以利用无配对的情感数据在保留内容的前提下执行情感到情感的翻译?
- RQ2通过中和明确将情感与内容分离是否能提高内容保留和整体翻译质量?
- RQ3循环强化学习在联合训练中和与情感化模块的效果如何?
- RQ4用自注意力情感分类器的预训练对最终性能有多大影响?
- RQ5所提出的方法在 Yelp 和 Amazon 数据集上与最先进的基线相比有何差异?
主要发现
| 数据集 | ACC | BLEU | G-score |
|---|---|---|---|
| Yelp | 80.00 | 22.46 | 42.38 |
| Amazon | 70.37 | 14.06 | 31.45 |
- 与基线相比在内容保留方面有显著提升(BLEU 分数显著更高)。
- 自动评估显示在情感转移准确性方面具竞争力,同时内容保留强(Yelp 和 Amazon 上的 G-score 更优)。
- 人工评估证实所提出的方法在语义保留方面优于基线。
- 对于所提出的方法,Yelp 的 BLEU 分数从 1.64 提升至 22.46,Amazon 从 0.56 提升至 14.06。
- 所提方法在两个数据集上都达到评估系统中的最佳整体表现(G-score)。
- 中和模块有效过滤情感词,使情感化模块能够更好地添加目标情感。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。