QUICK REVIEW
[论文解读] ActivityNet Challenge 2017 Summary
Bernard Ghanem, Juan Carlos Niebles|arXiv (Cornell University)|Oct 22, 2017
Human Pose and Action Recognition参考文献 2被引用 50
一句话总结
对2017年 ActivityNet 挑战在各任务中的结果摘要,包括最优提交及其性能指标,并附上方法论如特征融合、双流网络与时间提案等的注释。
ABSTRACT
The ActivityNet Large Scale Activity Recognition Challenge 2017 Summary: results and challenge participants papers.
研究动机与目标
- 促进在大规模、未剪辑视频上提升人类活动理解算法的发展。
- 展示在所有 ActivityNet Challenge 任务中表现最好的提交及其方法。
- 突出多模态特征及融合策略在提升性能中的作用。
提出的方法
- 报告每个任务的前三名提交并总结创新方法。
- 展示融合策略(如 CNN、MBH、C3D;加权/硬投票)及时间模型(双流、LSTM、TSN)。
- 描述领先团队使用的具体模型结构与流程(例如未剪辑视频分类融合、使用3D-CNN的时间动作提议)。
- 如有提供,包含数据增强、预训练和重新排序策略的细节。
- 提供一个整合的性能指标视图,以跨任务比较方法。
实验结果
研究问题
- RQ12017 年在未剪辑视频分类及相关 ActivityNet 任务上表现最好的领先方法和架构有哪些?
- RQ2特征融合与时间建模如何影响未剪辑和剪辑视频动作识别的性能?
- RQ3在 ActivityNet 2017 中,时间动作提议与密集标题的最佳方法有哪些?
- RQ4数据增强和逐类再定位对真实世界视频数据的结果有何影响?
主要发现
| 任务 | 前3名提交/指标(主要结果) |
|---|---|
| 任务1:未剪辑视频分类(ActivityNet) | Top-1 错误:IBUG 8.8;CHUK/ETHZ/SIAT 9.8;Oxford Brookes University 与 Disney Research 18.9 |
| 任务2:剪辑动作识别(Kinetics) | 平均错误率:清华+百度 12.4;CHUK/ETHZ/SIAT 13.9;TwentyBN 14.4 |
| 任务3:时间动作提议(ActivityNet) | AUC:SJTU/Columbia 64.80;MSRA 64.18;UMD 61.56 |
| 任务4:时间动作定位(ActivityNet) | 平均 mAP:SJTU/Columbia 33.40;CHUK/ETHZ/SIAT 31.86;IC 31.82 |
| 任务5:视频密集标题(ActivityNet Captions) | 平均 Meteor:MSRA 12.84;USTC 9.87;RUC/CMU 9.61 |
- 任务1(未剪辑视频分类)的前3名结果:Top-1 错误率 8.8%(IBUG);9.8%(CHUK、ETHZ、SIAT);Oxford Brookes University 与 Disney Research 18.9%。
- 任务2(剪辑动作识别)的前3名结果:平均错误率 12.4%(清华大学 + 百度);13.9%(CHUK、ETHZ、SIAT);14.4%(TwentyBN)。
- 任务3(时间动作提议)的前3名结果:AUC 64.80(SJTU & Columbia);64.18%(MSRA);61.56%(UMD)。
- 任务4(时间动作定位)的前3名结果:平均 mAP 33.40%(SJTU & Columbia);31.86%(CHUK、ETHZ、SIAT);31.82%(IC)。
- 任务5(视频密集标题)的前3名结果:平均 Meteor 12.84(MSRA);9.87%(中国科学技术大学);9.61%(RUC & CMU)。
- 若干提交显示将多条特征流(如 CNN、MBH、C3D)结合并采用融合策略(加权与硬投票)能显著提高未剪辑视频分类的性能。
- 创新性方法包括人/对象注意力、逐类再细化、双流架构以及多尺度注意力机制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。