QUICK REVIEW

[論文レビュー] Cooperative Training of Deep Aggregation Networks for RGB-D Action Recognition

Pichao Wang, Wanqing Li|arXiv (Cornell University)|Dec 5, 2017

Human Pose and Action Recognition被引用数 42

ひとこと要約

本稿では、RGBと深度特徴を1つの深層ニューラルネットワーク内で共同最適化することで、RGB-D行動認識のための協調学習フレームワーク、c-ConvNetを提案する。ソフトマックス損失とモダリティ内およびモダリティ間のトライアングル順序付け損失を組み合わせることで、特徴の識別性を向上させるとともに、モダリティの差を低減し、NTU RGB+D や ChaLearn LAP IsoGD を含む3つのベンチマークデータセットで最先端の性能を達成した。

ABSTRACT

A novel deep neural network training paradigm that exploits the conjoint information in multiple heterogeneous sources is proposed. Specifically, in a RGB-D based action recognition task, it cooperatively trains a single convolutional neural network (named c-ConvNet) on both RGB visual features and depth features, and deeply aggregates the two kinds of features for action recognition. Differently from the conventional ConvNet that learns the deep separable features for homogeneous modality-based classification with only one softmax loss function, the c-ConvNet enhances the discriminative power of the deeply learned features and weakens the undesired modality discrepancy by jointly optimizing a ranking loss and a softmax loss for both homogeneous and heterogeneous modalities. The ranking loss consists of intra-modality and cross-modality triplet losses, and it reduces both the intra-modality and cross-modality feature variations. Furthermore, the correlations between RGB and depth data are embedded in the c-ConvNet, and can be retrieved by either of the modalities and contribute to the recognition in the case even only one of the modalities is available. The proposed method was extensively evaluated on two large RGB-D action recognition datasets, ChaLearn LAP IsoGD and NTU RGB+D datasets, and one small dataset, SYSU 3D HOI, and achieved state-of-the-art results.

研究の動機と目的

行動認識におけるRGBと深度特徴の間のモダリティ差を解消すること。
異種モダリティから学習される深層特徴の識別力を向上させること。
独立した処理チャネルを用いずに、1つのネットワークがRGBと深度入力を協調的に学習できるようにすること。
片方のモダリティが利用できない状況でも有効なまま残るモダリティ間相関を埋め込むことで、認識精度を向上させること。
動的画像表現と事前学習済み ImageNet モデルを用いた、小規模データセットにおける効果的なファインチューニングを可能にすること。

提案手法

本手法は、RGBおよび深度動画シーケンスを動的画像（VDIs および DDIs）に変換するためのランクプーリングを用いる。これにより、空間的・時間的構造が保持される。
共有された c-ConvNet アーキテクチャが、RGB視覚的動的画像（VDIs）と深度動的画像（DDIs）を1つのネットワーク内で処理する。
分類のためのソフトマックス損失と、特徴のばらつきを低減するためのマルチコンポonent順序付け損失を併用して、ネットワークを共同で学習させる。
順序付け損失には、モダリティ内トライアングル損失（RGBまたは深度内）とモダリティ間トライアングル損失（RGBと深度間）が含まれ、モダリティ固有のばらつきとモダリティ間のばらつきを最小化する。
損失関数は、順序付け損失とソフトマックス損失の重み付き組み合わせとして最適化され、ハイパーパrameter λ で制御される。
推論段階で、4チャネルの動的画像（DDIf、VDIf、DDIb、VDIb）の予測を統合するためのプロダクトスコアファージョン戦略が適用され、最終的な精度が向上する。

実験結果

リサーチクエスチョン

RQ11つの深層ニューラルネットワークが、独立して処理するのではなく、協調的にRGBと深度モダリティから学習できるか。
RQ2共同学習中に、RGBと深度特徴の間のモダリティ差をどのように低減できるか。
RQ3共有ネットワークに埋め込まれたモダリティ間相関は、片方のモダリティが欠落した場合でも、認識を支援できる程度までどの程度強化できるか。
RQ4ソフトマックス損失とマルチレベルトライアングル順序付け損失を共同で最適化することで、従来の単一損失学習に比べてより識別性の高い特徴が得られるか。
RQ5トライアングル損失のマージン α や、モダリティ内・モダリティ間損失の重み λ といった主要ハイパーパrameter に、性能がどの程度敏感か。

主な発見

NTU RGB+D データセット（クロスサブジェクト設定）では、プロダクトスコアファージョンを用いた本手法が 89.08% の精度を達成し、平均および最大ファージョン手法を上回った。
ChaLearn LAP IsoGD データセットでは、プロダクトスコアファージョンを用いた本手法が 44.80% の精度を達成し、平均（43.48%）および最大（42.01%）ファージョンを顕著に上回った。
小規模な SYSU 3D HOI データセットでは、プロダクトスコアファージョンを用いた本手法が 98.33% の精度を達成し、限られたデータでも有効であることが示された。
トライアングル損失の最適なマージン α は、NTU RGB+D では 0.1、LAP IsoGD では 0.2 であり、より高い値は顕著な精度低下を引き起こした。
モダリティ内・モダリティ間トライアングル損失の重み λ は中程度の影響を示し、特に困難なデータセット（例：LAP IsoGD）では、より高い値（例：λ=5）が性能向上に寄与した。
本手法は、3つのデータセットすべてで最先端の結果を達成し、共同損失最適化による協調学習の有効性を確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。