[论文解读] An Efficient 3D CNN for Action/Object Segmentation in Video
该论文提出了一种高效的端到端3D卷积神经网络,采用3D可分离卷积进行无监督视频对象与动作分割,通过R2plus1D编码器和金字塔池化模块实现时空特征学习。该方法在DAVIS-16和Something-Something-V2数据集上达到最先进性能,参数量仅为标准3D卷积的1/5,浮点运算量(FLOPs)减少95%,显著降低计算成本的同时保持高精度。
Convolutional Neural Network (CNN) based image segmentation has made great progress in recent years. However, video object segmentation remains a challenging task due to its high computational complexity. Most of the previous methods employ a two-stream CNN framework to handle spatial and motion features separately. In this paper, we propose an end-to-end encoder-decoder style 3D CNN to aggregate spatial and temporal information simultaneously for video object segmentation. To efficiently process video, we propose 3D separable convolution for the pyramid pooling module and decoder, which dramatically reduces the number of operations while maintaining the performance. Moreover, we also extend our framework to video action segmentation by adding an extra classifier to predict the action label for actors in videos. Extensive experiments on several video datasets demonstrate the superior performance of the proposed approach for action and object segmentation compared to the state-of-the-art.
研究动机与目标
- 为解决视频对象分割中计算成本过高的问题,通过统一的3D卷积神经网络框架整合空间与时间特征。
- 在不牺牲分割精度的前提下,降低3D卷积神经网络的推理复杂度,尤其适用于长视频片段。
- 实现端到端的无监督视频对象分割,无需初始化掩码。
- 通过在最终特征图上添加分类头,将框架扩展至视频动作分割任务。
- 证明3D可分离卷积在降低浮点运算量的同时,仍能有效保持时空建模性能。
提出的方法
- 使用基于R2plus1D的编码器从视频片段中提取时空特征,该编码器在大规模动作识别数据集上进行预训练。
- 采用多分支3D金字塔池化模块,各分支使用不同的空间空洞率,以捕捉多尺度上下文信息。
- 在金字塔池化和解码器中引入3D可分离卷积,将空间与时间操作解耦,显著降低浮点运算量。
- 在最终特征图上应用帧级特征(FF),以提升定位精度。
- 采用端到端编码器-解码器架构,从编码后的特征重建全分辨率分割掩码。
- 通过在最终特征图上添加分类头,将框架扩展至动作分割任务,实现动作标签预测。
实验结果
研究问题
- RQ13D卷积神经网络是否能在不依赖双流架构的前提下,有效学习视频对象分割的联合时空表征?
- RQ2与标准3D卷积和R2plus1D卷积相比,3D可分离卷积在视频分割任务中的浮点运算量与精度表现如何?
- RQ33D金字塔池化模块在空洞率和分支数量方面,最优配置为何?
- RQ4在缺乏光流或双流输入的情况下,添加帧级特征是否能提升分割精度?
- RQ5同一架构能否被有效适配于视频对象分割与动作分割两类任务?
主要发现
- 所提出的3D可分离卷积相比标准3D卷积(1360亿FLOPs),将浮点运算量降低95%(降至60亿FLOPs),仅导致平均IoU下降0.3%(77.4 vs. 77.6)。
- 采用空洞率为(6, 12, 18)的3D金字塔池化模块与帧级特征,在DAVIS-16上实现78.3%的平均IoU,较基线提升5%。
- 使用四个分支(空洞率为6, 12, 18, 24)时性能下降至77.9%,表明感受野超过特征图尺寸后收益递减。
- 该模型在DAVIS-16(78.3%平均IoU)和Something-Something-V2(85.1% top-1准确率)上均达到最先进性能,优于先前方法。
- 消融实验证实,3D可分离卷积对效率至关重要,将GPU显存使用量从255 MB降至11 MB。
- 该框架实现了无需初始化掩码的端到端无监督视频对象分割,在真实世界视频数据上展现出强大的泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。