Skip to main content
QUICK REVIEW

[论文解读] ActivityNet Challenge 2017 Summary

Bernard Ghanem, Juan Carlos Niebles|arXiv (Cornell University)|Oct 22, 2017
Human Pose and Action Recognition参考文献 2被引用 50
一句话总结

对2017年 ActivityNet 挑战在各任务中的结果摘要,包括最优提交及其性能指标,并附上方法论如特征融合、双流网络与时间提案等的注释。

ABSTRACT

The ActivityNet Large Scale Activity Recognition Challenge 2017 Summary: results and challenge participants papers.

研究动机与目标

  • 促进在大规模、未剪辑视频上提升人类活动理解算法的发展。
  • 展示在所有 ActivityNet Challenge 任务中表现最好的提交及其方法。
  • 突出多模态特征及融合策略在提升性能中的作用。

提出的方法

  • 报告每个任务的前三名提交并总结创新方法。
  • 展示融合策略(如 CNN、MBH、C3D;加权/硬投票)及时间模型(双流、LSTM、TSN)。
  • 描述领先团队使用的具体模型结构与流程(例如未剪辑视频分类融合、使用3D-CNN的时间动作提议)。
  • 如有提供,包含数据增强、预训练和重新排序策略的细节。
  • 提供一个整合的性能指标视图,以跨任务比较方法。

实验结果

研究问题

  • RQ12017 年在未剪辑视频分类及相关 ActivityNet 任务上表现最好的领先方法和架构有哪些?
  • RQ2特征融合与时间建模如何影响未剪辑和剪辑视频动作识别的性能?
  • RQ3在 ActivityNet 2017 中,时间动作提议与密集标题的最佳方法有哪些?
  • RQ4数据增强和逐类再定位对真实世界视频数据的结果有何影响?

主要发现

任务前3名提交/指标(主要结果)
任务1:未剪辑视频分类(ActivityNet)Top-1 错误:IBUG 8.8;CHUK/ETHZ/SIAT 9.8;Oxford Brookes University 与 Disney Research 18.9
任务2:剪辑动作识别(Kinetics)平均错误率:清华+百度 12.4;CHUK/ETHZ/SIAT 13.9;TwentyBN 14.4
任务3:时间动作提议(ActivityNet)AUC:SJTU/Columbia 64.80;MSRA 64.18;UMD 61.56
任务4:时间动作定位(ActivityNet)平均 mAP:SJTU/Columbia 33.40;CHUK/ETHZ/SIAT 31.86;IC 31.82
任务5:视频密集标题(ActivityNet Captions)平均 Meteor:MSRA 12.84;USTC 9.87;RUC/CMU 9.61
  • 任务1(未剪辑视频分类)的前3名结果:Top-1 错误率 8.8%(IBUG);9.8%(CHUK、ETHZ、SIAT);Oxford Brookes University 与 Disney Research 18.9%。
  • 任务2(剪辑动作识别)的前3名结果:平均错误率 12.4%(清华大学 + 百度);13.9%(CHUK、ETHZ、SIAT);14.4%(TwentyBN)。
  • 任务3(时间动作提议)的前3名结果:AUC 64.80(SJTU & Columbia);64.18%(MSRA);61.56%(UMD)。
  • 任务4(时间动作定位)的前3名结果:平均 mAP 33.40%(SJTU & Columbia);31.86%(CHUK、ETHZ、SIAT);31.82%(IC)。
  • 任务5(视频密集标题)的前3名结果:平均 Meteor 12.84(MSRA);9.87%(中国科学技术大学);9.61%(RUC & CMU)。
  • 若干提交显示将多条特征流(如 CNN、MBH、C3D)结合并采用融合策略(加权与硬投票)能显著提高未剪辑视频分类的性能。
  • 创新性方法包括人/对象注意力、逐类再细化、双流架构以及多尺度注意力机制。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。