QUICK REVIEW

[论文解读] Using Descriptive Video Services to Create a Large Data Source for Video Annotation Research

Atousa Torabi, Christopher Pal|arXiv (Cornell University)|Mar 3, 2015

Multimodal Machine Learning Applications参考文献 13被引用 160

一句话总结

本文提出了一项大规模、基于DVS的视频注释数据集（M-VAD），通过最小化人工干预，自动分割并同步92张DVD中的描述性视频服务（DVS）音频轨道生成。利用基于音频的DVS叙述分离与静音检测进行时间对齐，作者构建了一个高质量数据集，包含84.6小时的视频及专业撰写、时间对齐的自然语言描述，可支持深度学习模型在视频描述任务中实现更丰富的语义与句法表达。

ABSTRACT

In this work, we introduce a dataset of video annotated with high quality natural language phrases describing the visual content in a given segment of time. Our dataset is based on the Descriptive Video Service (DVS) that is now encoded on many digital media products such as DVDs. DVS is an audio narration describing the visual elements and actions in a movie for the visually impaired. It is temporally aligned with the movie and mixed with the original movie soundtrack. We describe an automatic DVS segmentation and alignment method for movies, that enables us to scale up the collection of a DVS-derived dataset with minimal human intervention. Using this method, we have collected the largest DVS-derived dataset for video description of which we are aware. Our dataset currently includes over 84.6 hours of paired video/sentences from 92 DVDs and is growing.

研究动机与目标

解决当前用于训练深度学习模型的大规模、高质量视频描述数据集缺乏的问题。
开发一种自动化方法，从DVD中提取并最小化人工干预地对齐DVS叙述。
创建一个公开可用、类别平衡的数据集，用于视频描述研究，支持多样化类型与专业水平的描述。
与依赖电影剧本或众包标注的现有方法相比，提升视频-文本对的质量与对齐精度。
通过使用专业撰写、时间精确的DVS音频轨道描述，支持端到端视频描述模型的训练。

提出的方法

利用音频信号处理与静音检测，自动从混合音频轨道中分离DVS叙述段落，识别自然的分割点。
通过快速傅里叶变换（FFT）进行音频相似性分析，以检测DVS段落并提升与视频内容的对齐精度。
为每个视频片段应用两秒的时间缓冲区，以补偿DVS叙述与视觉内容之间可能存在的1–2秒偏移。
使用混合自动语音识别与人工转录的流水线，实现DVS音频转录，准确率超过98%。
将文本中所有专有名称替换为单一标记（如'SOMEONE'），以减少模型过拟合并提升泛化能力。
创建平衡的训练/验证/测试集划分（38,949 / 4,888 / 5,149个片段），并保持各集合间类型分布的一致性。

实验结果

研究问题

RQ1能否自动分割并同步商业DVD中的DVS音频轨道与视频内容，以构建大规模、高质量的视频描述数据集？
RQ2与基于电影剧本或众包标注生成的描述相比，基于DVS生成的描述在质量与对齐精度上表现如何？
RQ3从数据集中移除专有名称在多大程度上能提升视频描述模型的性能？
RQ4基于LSTM的视频描述模型在该数据集上进行训练后，能否生成语义合理且上下文相关的描述？
RQ5与合成或众包生成的字幕相比，使用专业撰写、自然语速的DVS叙述是否能带来更好的视频描述任务泛化性能？

主要发现

M-VAD数据集包含84.6小时视频，配以92张DVD中生成的55,904条自然语言描述，单个片段的中位时长为6.2秒。
该数据集是目前已知最大的基于DVS的视频描述数据集，超越了以往仅使用46张DVD并结合剧本与DVS的方法。
DVS生成的描述具有高度的时间对齐性，最大偏移不超过2秒，且描述使用丰富、句法复杂的句子。
词汇表包含17,609个唯一词汇，其中包含9,512个名词、2,571个动词、3,560个形容词与857个副词，表明对场景元素有详尽的视觉描述。
最常出现的10个动词中包含五个‘看’的同义词（如gaze, look, stare），反映出叙述中对视觉注意与观察的重点关注。
定性结果表明，基于该数据集训练的LSTM模型能够生成语义清晰、上下文相关的描述，且与原始DVS叙述高度一致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。