QUICK REVIEW

[論文レビュー] Domain-Specific Priors and Meta Learning for Few-Shot First-Person Action Recognition

Huseyin Coskun, M. Zeeshan Zia|arXiv (Cornell University)|Jul 22, 2019

Human Pose and Action Recognition参考文献 81被引用数 30

ひとこと要約

本論文は、ドメイン固有の視覚的手がかり（例えば、手の把持、物体との相互作用、動き、軌道）を組み合わせ、アテンション拡張型メタラーニングフレームワーク（A-MAML）を用いた few-shot 第一視点行動認識手法を提案する。独立に訓練された視覚的手がかりとメタラーニングを活用することで、EPIC および EGTEA データセットにおいて、クラス間およびデータセット間の few-shot トランスファー設定において、ベースラインを著しく上回る最先端の性能を達成する。

ABSTRACT

The lack of large-scale real datasets with annotations makes transfer learning a necessity for video activity understanding. We aim to develop an effective method for few-shot transfer learning for first-person action classification. We leverage independently trained local visual cues to learn representations that can be transferred from a source domain, which provides primitive action labels, to a different target domain using only a handful of examples. Visual cues we employ include object-object interactions, hand grasps and motion within regions that are a function of hand locations. We employ a framework based on meta-learning to extract the distinctive and domain invariant components of the deployed visual cues. This enables transfer of action classification models across public datasets captured with diverse scene and action configurations. We present comparative results of our transfer learning methodology and report superior results over state-of-the-art action classification approaches for both inter-class and inter-dataset transfer.

研究の動機と目的

大規模かつ完全にアノテートされた動画データセットが不足するため、few-shot 第一視点行動認識の課題に対処すること。
クラス間およびデータセット間のドメインシフトとデータの不均衡を克服し、クラスおよびデータセットをまたいで転移学習を可能にすること。
前景の行動を背景の雑音から分離する手中心の視覚的手がかりを用いて、アノテーションが少ないスケーラブルなフレームワークを構築すること。
メタラーニングとタスク固有の視覚的事前知識を組み合わせることで、より良い few-shot での適応を実現し、行動認識モデルの一般化性能を向上させること。

提案手法

第一視点動画から判別的な特徴を抽出するために、独立に訓練された視覚的手がかりモデル（手検出、把持分類、光流、物体相互作用）をドメイン固有の事前知識として活用する。
時間的系列の視覚的手がかりを符号化するために再帰的ニューラルネットワーク（RNN）を用い、関心を向けたい空間的・時間的パターンに焦点を当てるためのアテンション機構を組み込む。
RNN を新しいクラスに少数の例で適応可能にするために、アテンション拡張型モデルに依存しないメタラーニング（A-MAML）フレームワークを適用し、推論時に高速な適応を実現する。
視覚的手がかりモデルを多様な画像データセット（例：COCO、ImageNet）で訓練し、動画行動認識に転移させる際に動画データでの再訓練を一切行わない。
手中心の手がかりに注目することで、背景の外観から前景の行動表現を分離し、シーンの変化に対してより頑健になるようにする。
各エピソードが1クラスあたり少数の例を含むサポートセットとクエリセットを有する、few-shot 分類タスクのエピソードを用いたメタトレーニングを実施する。

実験結果

リサーチクエスチョン

RQ1例えば、把持、動き、物体相互作用といったドメイン固有の視覚的手がかりは、第一視点動画における few-shot 行動認識を向上させる有効な事前知識として機能するか？
RQ2標準的な微調整や KNN ベースラインと比較して、アテンションを組み込んだメタラーニング（A-MAML）は、few-shot 第一視点行動認識においてどの程度効果的か？
RQ3画像のみのデータセットから学習された特徴表現は、最小限のアノテーションで動画行動認識にどの程度転移可能か？
RQ4提案手法は、長尾行動（long-tail actions）を含むクラス間、およびキッチンから工場へとデータセットを変更するようなシナリオにおいて、少数の例で一般化可能か？

主な発見

提案された A-MAML 法は、5-way 1-shot の EPIC ベンチマークで 50.2% の精度を達成し、次に良い手法（ProtoNet）を 17.3 パcent point 上回った。
5-shot 5クラスタスクにおいて、EPIC では 41.4%、EGTEA では 51.4% の精度を達成し、すべてのベースライン（ProtoGAN や TARN を含む）を上回った。
10-shot 診断では、EPIC で 50.2%、EGTEA で 60.7% の精度を達成し、限られた監視信号でも強力な一般化性能を示した。
アブレーションスタディの結果、手、動き、把持、物体相互作用の全視覚的手がかりを用いることで、1-shot 時に 33.5% の精度が得られ、グローバル特徴のみの場合の 30.3% よりも優れた性能を示した。
ドメインシフトが顕著なデータセット間転送において、微調整は KNN よりも 15.5 パcent point 高い（56.9% 対 41.4%）ため、モデルの適応がメトリックベースの推論よりも効果的であることが示された。
A-MAML のアテンション機構により、標準的な MAML よりも 2.5–4.5 パcent point の性能向上が見られ、特に長尾および低ショット状況で顕著であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。