[论文解读] Deep Reinforcement Learning for Unsupervised Video Summarization with Diversity-Representativeness Reward
本文介绍了一种端到端深度摘要网络(DSN),通过强化学习引入新颖的无监督多样性-代表性(DR)奖励进行训练,使无监督视频摘要达到与监督方法相媲美的效果。
Video summarization aims to facilitate large-scale video browsing by producing short, concise summaries that are diverse and representative of original videos. In this paper, we formulate video summarization as a sequential decision-making process and develop a deep summarization network (DSN) to summarize videos. DSN predicts for each video frame a probability, which indicates how likely a frame is selected, and then takes actions based on the probability distributions to select frames, forming video summaries. To train our DSN, we propose an end-to-end, reinforcement learning-based framework, where we design a novel reward function that jointly accounts for diversity and representativeness of generated summaries and does not rely on labels or user interactions at all. During training, the reward function judges how diverse and representative the generated summaries are, while DSN strives for earning higher rewards by learning to produce more diverse and more representative summaries. Since labels are not required, our method can be fully unsupervised. Extensive experiments on two benchmark datasets show that our unsupervised method not only outperforms other state-of-the-art unsupervised methods, but also is comparable to or even superior than most of published supervised approaches.
研究动机与目标
- 由于真实摘要的主观性,激励无监督视频摘要。
- 将视频摘要建模为对关键帧的序列决策过程。
- 开发一个输出帧选择概率的深度摘要网络(DSN)。
- 设计一个不需要标签的 DR 奖励,结合多样性和代表性。
- 在有标注时,将框架扩展为有监督变体。
提出的方法
- 用 CNN(GoogLeNet)对帧进行编码以提取特征。
- 用双向 LSTM 解码以产生帧选择概率。
- 从预测概率中为每帧采样二进制动作。
- 使用策略梯度(REINFORCE)进行训练以最大化 DR 奖励(Rdiv + Rrep)。
- 在优化过程中施加百分比正则化和权重正则化。
- 可选地通过最大化注释关键帧的对数概率来在有监督下加入目标。
实验结果
研究问题
- RQ1带有多样性-代表性奖励的强化学习是否能够实现完全无监督的视频摘要?
- RQ2多样性和代表性组成部分如何交互以产生高质量的摘要?
- RQ3无监督的 DR-DSN 与 SumMe 和 TVSum 上的有监督方法相比如何?
- RQ4扩展到有监督是否能进一步提升性能?
主要发现
- DR-DSN 在 SumMe 和 TVSum 上优于其他无监督方法。
- 无监督的 DR-DSN 与所测试数据集上的许多有监督方法相当甚至优于它们。
- 同时使用 Rdiv 和 Rrep 比仅使用任一奖励得到更好的摘要。
- 有监督扩展 DR-DSN_sup 在若干设置下进一步超越无监督版本的结果。
- 该方法在定性上与人类判定的重要帧保持强烈的一致性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。