[論文レビュー] ProSkill: Segment-Level Skill Assessment in Procedural Videos
ProSkillは手順ビデオにおける動作レベルの技能評価の初のベンチマークデータセットを紹介。スイス式トーナメント + クラウドソーシング + ELOプロトコルを通じて絶対スコアとペアワイズスキル注釈を提供し、複数の最先端手法をベンチマークする。
Skill assessment in procedural videos is crucial for the objective evaluation of human performance in settings such as manufacturing and procedural daily tasks. Current research on skill assessment has predominantly focused on sports and lacks large-scale datasets for complex procedural activities. Existing studies typically involve only a limited number of actions, focus on either pairwise assessments (e.g., A is better than B) or on binary labels (e.g., good execution vs needs improvement). In response to these shortcomings, we introduce ProSkill, the first benchmark dataset for action-level skill assessment in procedural tasks. ProSkill provides absolute skill assessment annotations, along with pairwise ones. This is enabled by a novel and scalable annotation protocol that allows for the creation of an absolute skill assessment ranking starting from pairwise assessments. This protocol leverages a Swiss Tournament scheme for efficient pairwise comparisons, which are then aggregated into consistent, continuous global scores using an ELO-based rating system. We use our dataset to benchmark the main state-of-the-art skill assessment algorithms, including both ranking-based and pairwise paradigms. The suboptimal results achieved by the current state-of-the-art highlight the challenges and thus the value of ProSkill in the context of skill assessment for procedural videos. All data and code are available at https://fpv-iplab.github.io/ProSkill/
研究の動機と目的
- 製造業や組立などの分野を横断して、人間の手順作業パフォーマンスを客観的に評価する動機づけ。
- 絶対スコアとペアワーク比較の両方を含む大規模なセグメントレベルの技能注釈データセットを作成。
- Swiss Tournamentの対戦組み合わせ、クラウドソースによる判断、ELOベースのグローバルレーティングを組み合わせたスケーラブルな注釈プロトコルを開発。
- 多様な手順ビデオに対して現在のグローバルランキングモデルとペアワランキングモデルをベンチマークし、既存のギャップを露呈。
提案手法
- ProSkillは三段階を統合します:Swiss Tournamentベースのビデオセグメント選択、AMTでのクラウドソースされたペアワイズ技能判断、ELOベースの集約による絶対セグメントスコアの生成。
- ビデオは16フレームクリップに分割され、I3DまたはVideoMAE特徴量で下流スコアリングへエンコード。
- 各アクションの絶対スコアは、ペアワイズ結果をグローバルランキングへ集約することで得られ、ランキングを安定させるためにラウンドを繰り返す。
- データセットはIkea ASM、Meccano、EpicTent、Assembly101、EgoExo4Dなど、複数の公開手順ビデオソースから71アクション、14時間のビデオの注釈を集約。
- ベースライン評価は、グローバルランキングモデル(USDL、DAE-AQA、CoFInAl)とペアワランキング手法(RAAN、AQA-TPT、CoRe)の両方を、I3DとVideoMAEの特徴量を用いて実施。
- テキスト grounding 実験は、統一モデルにアクション説明(MiniLM)を付与して文脈情報を提供。
実験結果
リサーチクエスチョン
- RQ1手順ビデオのペアワイズ比較から信頼できる絶対技能スコアをスケーラブルな注釈プロトコルで生成できるか?
- RQ2この大規模かつ複数分野の手順技能ベンチマークで、最先端のグローバルランキングおよびペアワイズランキング手法はどの程度性能を発揮するか?
- RQ3統一モデルにテキストのアクション説明を条件付けすると、手順ビデオの技能評価は改善されるか?
- RQ4注釈ラウンドを増やすと Kendall’s tau の収束特性と安定性はどうなるか?
- RQ5複数アクションを統一的にモデリングする場合と、アクションごとにモデリングする場合とで、手順作業の技能推定にどのような違いが出るか?
主な発見
- ProSkillは1,135クリップ、71アクション、約14.12時間のビデオを、絶対スコアとペアワイズ技能注釈の両方とともに提供。
- アクション全体で6つの注釈ラウンドにより安定した絶対ランキングを得られ、IKEA、Assembly101、EgoExo4Dなど複数データセットでKendallのτが約0.8へ収束。
- グローバルランキング手法(CoFInAl、USDL、DAE-AQA)は、このマルチアクション設定でペアワイズのみの手法よりも概して優れており、VideoMAE特徴量はI3Dをしばしば上回る。
- 複数アクションを統一的にモデリングするモデルは、アクションごとに扱うモデルよりも優れており、グローバル技能評価のための共通学習の利点を示す。
- テキスト grounding(アクション説明)は、いくつかのデータセットで統一モデルの性能を安定的に向上させる modest な改善を提供。
- ペアワイズランキングでは、VideoMAEを用いたAQA-TPTがEgoExo4Dで最も良い平均性能を達成する一方、Assembly101は全体的に精度が低く挑戦的なデータセット。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。