QUICK REVIEW

[论文解读] Who's Better, Who's Best: Skill Determination in Video using Deep Ranking.

Hazel Doughty, Dima Damen|arXiv (Cornell University)|Mar 29, 2017

Human Pose and Action Recognition参考文献 18被引用 8

一句话总结

本文提出了一种用于视频技能评估的监督深度排序方法，通过一种新颖的损失函数建模技能差异，该损失函数可学习技能差异对之间的判别性特征，以及技能相近对之间的共享特征。该方法在四个不同任务中对视频对进行正确排序的准确率达到70–83%，展示了在自动化技能评估中具备鲁棒性和泛化能力。

ABSTRACT

We present a method for assessing skill from video, applicable to a variety of tasks, ranging from surgery to drawing and rolling pizza dough. We formulate the problem as pairwise (who's better?) and overall (who's best?) ranking of video collections, using supervised deep ranking. We propose a novel loss function that learns discriminative features when a pair of videos exhibit variance in skill, and learns shared features when a pair of videos exhibit comparable skill levels. Results demonstrate our method is applicable across tasks, with the percentage of correctly ordered pairs of videos ranging from 70% to 83% for four datasets. We demonstrate the robustness of our approach via sensitivity analysis of its parameters. We see this work as effort toward the automated organization of how-to video collections and overall, generic skill determination in video.

研究动机与目标

开发一种用于视频内容自动化技能判定的通用方法。
解决基于技能水平对视频进行排序的挑战，使其能够跨不同领域泛化。
将技能评估建模为成对比较（谁更好？）和整体排序（谁最好？）的排名问题。
设计一种可适应技能差异对与技能相似对的损失函数。
评估该方法在多样化视频任务中的鲁棒性与泛化能力。

提出的方法

该方法使用监督深度排序从视频片段中学习特征表示。
提出一种新颖的损失函数，当视频在技能上存在差异时鼓励学习判别性特征，当技能相近时则鼓励学习共享特征。
该损失函数在成对视频样本上端到端训练，样本附带人工标注的技能排序。
使用深度神经网络提取特征，损失函数优化相对技能排序。
模型在涵盖多样化任务（包括外科手术、绘画和食品准备）的多个数据集上进行训练。
进行敏感性分析以评估参数鲁棒性与模型稳定性。

实验结果

研究问题

RQ1单一深度学习框架能否在多样化领域中有效对视频按技能水平进行排序？
RQ2所提出的损失函数如何提升技能差异对与技能相似对之间特征学习的性能？
RQ3该方法在不同技能水平下对视频对进行正确排序的性能如何？
RQ4该方法对超参数变化和数据分布偏移的鲁棒性如何？
RQ5该模型能否在无需微调的情况下泛化到未见过的视频任务？

主要发现

该方法在四个多样化数据集上对视频对进行正确排序的准确率达到70–83%。
所提出的损失函数能够根据视频对之间技能差异的程度，成功学习判别性特征与共享特征。
在敏感性分析中，该模型表现出稳健性能，表明其在参数变化下具有稳定性。
该方法在诸如外科手术、绘画和食品准备等任务中表现出有效的泛化能力，显示出广泛适用性。
该方法可实现基于技能水平的教程视频集合的自动化组织。
结果证实，使用定制化损失函数的深度排序技术，可实现视频中通用技能判定的可行性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。