[论文解读] Recurrent Topic-Transition GAN for Visual Paragraph Generation
RTT-GAN 同时学习一个段落生成器和多层判别器,以生成多样且语义上连贯的可视段落,采用仅单句字幕的半监督训练。
A natural image usually conveys rich semantic content and can be viewed from different angles. Existing image description methods are largely restricted by small sets of biased visual paragraph annotations, and fail to cover rich underlying semantics. In this paper, we investigate a semi-supervised paragraph generative framework that is able to synthesize diverse and semantically coherent paragraph descriptions by reasoning over local semantic regions and exploiting linguistic knowledge. The proposed Recurrent Topic-Transition Generative Adversarial Network (RTT-GAN) builds an adversarial framework between a structured paragraph generator and multi-level paragraph discriminators. The paragraph generator generates sentences recurrently by incorporating region-based visual and language attention mechanisms at each step. The quality of generated paragraph sentences is assessed by multi-level adversarial discriminators from two aspects, namely, plausibility at sentence level and topic-transition coherence at paragraph level. The joint adversarial training of RTT-GAN drives the model to generate realistic paragraphs with smooth logical transition between sentence topics. Extensive quantitative experiments on image and video paragraph datasets demonstrate the effectiveness of our RTT-GAN in both supervised and semi-supervised settings. Qualitative results on telling diverse stories for an image also verify the interpretability of RTT-GAN.
研究动机与目标
- 激发生成丰富多样的视觉段落,超越单句字幕。
- 提出一个半监督框架,利用段落语料来引导长文本描述。
- 开发基于区域注意的生成器,条件化在层次上下文上,以实现多句的连贯。
- 采用句级和主题转换判别器来强制合理性与连贯的主题转换。
- 在图像和视频段落数据集上展示在有监督与半监督设置中的有效性。
提出的方法
- 构建一个生成器,使用基于区域的视觉与语言注意力在密集字幕检测到的语义区域上,循环地产生句子。
- 使用段落RNN、句子RNN和词RNN,并配合层级注意力来生成多句段落。
- 结合空间视觉注意力和语言注意力,为每个句子形成主题向量,并复制局部区域短语。
- 采用双判别器设置(句子合理性 D^s 与 主题转换一致性 D^r),通过 Wasserstein GAN 目标引导生成。
- 为有监督数据使用重建(语言模型)损失,并采用 Monte Carlo roll-out 策略通过离散文本样本进行反向传播,类似 SeqGAN。
- 将训练扩展到半监督设置:从独立段落语料学习长段落结构,同时使用单句图像字幕进行监督。
实验结果
研究问题
- RQ1RTT-GAN 是否能够通过对局部语义区域的推理,为图像/视频生成多样且连贯的长段落?
- RQ2当只有单句字幕可用时,使用段落语料的半监督训练是否提升段落生成?
- RQ3相较于基线的图像到段落方法,区域基注意力和双判别器对段落质量的影响如何?
- RQ4通过操控第一句来产生个性化段落,同时保持连贯性吗?
- RQ5该方法是否能有效扩展到带有运动特征的视频段落生成?
主要发现
| 方法 | METEOR | CIDEr | BLEU-1 | BLEU-2 | BLEU-3 | BLEU-4 |
|---|---|---|---|---|---|---|
| RTT-GAN (Semi+) | 18.39 | 20.36 | 42.06 | 25.35 | 14.92 | 9.21 |
| RTT-GAN (Semi-) | 14.08 | 13.07 | 39.22 | 22.50 | 13.34 | 7.75 |
| RTT-GAN (Fully-) | 17.12 | 16.87 | 41.99 | 24.86 | 14.89 | 9.03 |
| RTT-GAN (Fully- w/o discriminator) | 16.57 | 15.07 | 41.86 | 24.33 | 14.56 | 8.99 |
| RTT-GAN (Semi- w/o discriminator) | 12.68 | 12.77 | 37.20 | 20.51 | 12.08 | 6.91 |
| Human | 19.22 | 28.55 | 42.88 | 25.68 | 15.55 | 9.66 |
- 在 fully-supervised 设置下,RTT-GAN 配置完整判别器在图像-段落指标(METEOR、CIDEr、BLEU)上优于基线。
- 在半监督设置中,RTT-GAN(Semi-)在仅使用单句字幕进行监督时,获得具有竞争力的 CIDEr 与 METEOR 分数。
- 对抗性判别器显著提升性能;在半监督设置中移除它们会使 CIDEr 最多下降 4.11%。
- 区域基注意力和语言注意力组件显著优于无注意力变体的指标。
- 模型通过改变第一句支持个性化段落生成,产生多样且主题连贯的描述。
- RTT-GAN 在视频段落方面也有效扩展,在 TACoS-MultiLevel 上获得优越的 BLEU-4、METEOR 与 CIDEr。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。