QUICK REVIEW

[論文レビュー] Weakly Supervised Action Labeling in Videos Under Ordering Constraints

Piotr Bojanowski, Rémi Lajugie|arXiv (Cornell University)|Jul 4, 2014

Human Pose and Action Recognition参考文献 1被引用数 44

ひとこと要約

本論文は、映画の台本に類するアノテーションからの行動順序制約のみを用いて、動画における時系列行動局所化の弱教師付き手法を提案する。行動分類器と時間的順序制約下での動画セグメントへのラベル割り当てを同時に学習することで、大規模なホリウッド動画データセットにおいて最先端の性能を達成し、完全教師ありベースラインを上回る。これは、データの25％しか完全にアノテートされていなくても成立する。

ABSTRACT

We are given a set of video clips, each one annotated with an {\em ordered} list of actions, such as "walk" then "sit" then "answer phone" extracted from, for example, the associated text script. We seek to temporally localize the individual actions in each clip as well as to learn a discriminative classifier for each action. We formulate the problem as a weakly supervised temporal assignment with ordering constraints. Each video clip is divided into small time intervals and each time interval of each video clip is assigned one action label, while respecting the order in which the action labels appear in the given annotations. We show that the action label assignment can be determined together with learning a classifier for each action in a discriminative manner. We evaluate the proposed model on a new and challenging dataset of 937 video clips with a total of 787720 frames containing sequences of 16 different actions from 69 Hollywood movies.

研究の動機と目的

映画の台本から得られる行動順序情報のみを活用し、最小限の人的アノテーションで時系列行動局所化の課題に取り組む。
時間スタンプ付きアノテーションが高価であるため、完全教師あり手法の限界を補うために弱教師付き信号を活用する。
行動ラベリング問題を、順序制約下での行動分類器と時間的アサインメントの共同最適化として定式化する。
完全な教師あり情報が限られている状況でも、時間的順序制約がモデル性能を顕著に向上させることを示す。
937本のホリウッド映像クリップ、16種類の行動、787,720フレームを含む大規模で現実的であるデータセット上で評価し、弱教師あり条件下でも優れた一般化性能を示す。

提案手法

各動画クリップを短い時間的セグメント（フレーム）の列としてモデル化し、台本に記載された行動の順序を尊重しながら、各セグメントに1つの行動ラベルを割り当てる。
行動分類器と時間的アサインメントの共同最適化として学習問題を定式化し、時間的順序制約を満たす判別的最適化を実行する。
正しい行動順序を強制し、分類器の判別性を向上させるコスト関数を最小化するため、Frank-Wolfeアルゴリズムに基づく凸最適化フレームワークを用いる。
弱教師あり信号（行動順序）と、オプションで部分的な完全教師あり信号（時間スタンプ付きアノテーション）を、半教師あり設定で統合する。
最適アサインメント行列から、最適化解に基づく閉形式式を用いて、暗黙の行動分類器を推定する。
比較のため、順序制約を活用しない完全教師ありデータのみを用いる平方損失ベースラインを適用する。

実験結果

リサーチクエスチョン

RQ1弱教師付きの台本アノテーションからの時間的順序制約は、時間スタンプ付きアノテーションが不要な状況でも、動画内の行動局所化と分類を向上させることができるか？
RQ2完全にアノテートされたデータの一部（例：25％）しか利用できない状況で、行動順序を活用する弱教師あり手法の性能は、完全教師ありベースラインを上回るか？
RQ3弱教師ありと組み合わせた場合、順序制約が分類器学習にどの程度寄与するか？
RQ4行動分類器と時間的ラベルアサインメントの共同最適化は、分類と局所化を別々に処理する手法を上回るか？
RQ5本手法は、多様な行動シーケンスを含むホリウッド映画からの複雑で現実的な動画データに対しても、良好な一般化性能を示すか？

主な発見

25％のデータしか完全にアノテートされていない状況でも、本手法は完全教師ありベースライン（平方損失）を上回り、順序制約を用いた弱教師あり学習の価値を示している。
特に「ドアを開ける」「座る」「立つ」などの頻出行動では、平均的な整合性精度がベースラインを上回っている。
半教師あり設定では、完全にアノテートされたデータが限られている状況でも、モデルは常に完全教師ありベースライン（SL）を上回り、順序制約が学習効率を向上させることを示している。
順序制約を欠いたBojanowskiらのベースラインに比べ、本手法は顕著に性能が向上しており、弱教師あり条件下での劣化を回避している。
本手法で回復された分類器は、完全教師ありベースラインおよびBojanowskiらのベースラインよりも平均的再現率が高く、特に弱教師あり環境下で顕著な向上を示している。
Frank-Wolfeアルゴリズムの使用により、射影ステップを必要とせず、大規模な動画データセットへのスケーラビリティをサポートしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。