[论文解读] No Metrics Are Perfect: Adversarial Reward Learning for Visual Storytelling
本文提出对抗性奖励学习(AREL),一种从人类示范中学习奖励函数的框架,以生成更具人类风格的视觉故事。通过在策略模型与奖励模型之间进行对抗性训练,AREL在自动指标之外提升了故事质量,在相关性、表现力和具体性方面显著提高了人类评估表现——尤其在图灵测试中成功欺骗了人类标注员。
Though impressive results have been achieved in visual captioning, the task of generating abstract stories from photo streams is still a little-tapped problem. Different from captions, stories have more expressive language styles and contain many imaginary concepts that do not appear in the images. Thus it poses challenges to behavioral cloning algorithms. Furthermore, due to the limitations of automatic metrics on evaluating story quality, reinforcement learning methods with hand-crafted rewards also face difficulties in gaining an overall performance boost. Therefore, we propose an Adversarial REward Learning (AREL) framework to learn an implicit reward function from human demonstrations, and then optimize policy search with the learned reward function. Though automatic eval- uation indicates slight performance boost over state-of-the-art (SOTA) methods in cloning expert behaviors, human evaluation shows that our approach achieves significant improvement in generating more human-like stories than SOTA systems.
研究动机与目标
- 解决自动指标在评估视觉故事情节质量方面的局限性。
- 克服强化学习中手工设计奖励的偏差与稀疏性问题。
- 开发一种从图像序列生成更具表现力、连贯性与人类风格故事的方法。
- 证明人类评估能揭示自动指标无法捕捉的优越性能。
- 验证对抗性奖励学习在生成语义更丰富、更具想象力的叙事方面的有效性。
提出的方法
- AREL采用对抗性训练,包含一个生成故事的策略模型和一个从人类示范中学习隐式奖励的奖励模型。
- 奖励模型被训练以区分人类书写的故事情节与模型生成的故事情节,采用类似GAN的判别器设置。
- 引入Boltzmann分布以连接奖励学习与分布近似,提升策略优化效果。
- 利用学习到的奖励函数优化策略,实现与人类风格叙事模式的更好对齐。
- 该框架在VIST数据集上端到端训练,使用人类标注的故事情节序列作为示范。
- 通过Amazon Mechanical Turk进行人类评估,包括图灵测试与成对比较,以评估相关性、表现力与具体性。
实验结果
研究问题
- RQ1对抗性奖励学习能否在自动指标之外提升视觉故事情节生成质量?
- RQ2所学习的奖励函数在多大程度上捕捉了人类风格的叙事质量?
- RQ3自动指标与人类对故事情节质量的感知之间相关性如何?
- RQ4该模型能否生成比SOTA方法更具表现力、连贯性与具体性的故事?
- RQ5该模型在生成能欺骗人类评估者的故事情节方面是否达到人类水平?
主要发现
- 在图灵测试中,AREL的欺骗成功率达到45.8%,显著优于XE-ss(28.3%)、BLEU-RL(32.1%)、CIDEr-RL(19.7%)和GAN(39.5%)。
- 在成对人类评估中,AREL在相关性上以5:0:0胜过XE-ss,在表现力上以4:0:1胜出,在具体性上以5:0:0胜出,表明在所有维度上均具有显著优势。
- 尽管在METEOR和CIDEr等自动指标上仅有微小提升,但人类评估揭示了显著的性能差距,证实了现有指标的局限性。
- 图7的定性示例显示,AREL生成的故事在语法正确性、连贯性与图像一致性方面优于XE-ss。
- 在图灵测试中,3名(共5名)标注员判断AREL生成的故事为人类所写,表明其具备强大的人类风格生成能力。
- 该研究实证证实,自动指标在评估视觉故事情节的语义丰富度与叙事质量方面并不可靠。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。