QUICK REVIEW

[論文レビュー] An Efficient 3D CNN for Action/Object Segmentation in Video

Rui Hou, Chen Chen|arXiv (Cornell University)|Jul 21, 2019

Human Pose and Action Recognition参考文献 47被引用数 23

ひとこと要約

本稿では、空間的・時間的特徴の学習をR2plus1Dエンコーダーとピラミッドプーリングモジュールを用いて行うことで、自己教師あり動画オブジェクトおよびアクションセグメンテーションのための効率的なエンドツーエンド3D CNNを提案する。3D分離畳み込みを用いることで、標準的な3D畳み込みと比較してパラメータ数を5倍少なく、FLOPsを95%削減し、計算コストを顕著に低減しながらも、精度を維持する。

ABSTRACT

Convolutional Neural Network (CNN) based image segmentation has made great progress in recent years. However, video object segmentation remains a challenging task due to its high computational complexity. Most of the previous methods employ a two-stream CNN framework to handle spatial and motion features separately. In this paper, we propose an end-to-end encoder-decoder style 3D CNN to aggregate spatial and temporal information simultaneously for video object segmentation. To efficiently process video, we propose 3D separable convolution for the pyramid pooling module and decoder, which dramatically reduces the number of operations while maintaining the performance. Moreover, we also extend our framework to video action segmentation by adding an extra classifier to predict the action label for actors in videos. Extensive experiments on several video datasets demonstrate the superior performance of the proposed approach for action and object segmentation compared to the state-of-the-art.

研究の動機と目的

動画オブジェクトセグメンテーションにおける高い計算コストを、統合的な3D CNNフレームワーク内で空間的および時間的特徴を統合することで低減すること。
特に長時間の動画クリップにおいて、セグメンテーション精度を損なわずに推論の複雑さを低減すること。
初期化マスクを必要とせず、エンドツーエンドの自己教師あり動画オブジェクトセグメンテーションを可能にすること。
アクション認識のための分類器ヘッドを追加することで、フレームワークを動画アクションセグメンテーションに拡張すること。
3D分離畳み込みが、スパatio-時間モデリングにおける性能を保持しつつ、FLOPsを削減する有効性を示すこと。

提案手法

大規模なアクション認識データセットで事前学習されたR2plus1Dベースのエンコーダーを用いて、動画クリップからのスパatio-時間的特徴を抽出する。
異なる空間的膨張率を用いた複数のブランチを持つ3Dピラミッドプーリングモジュールを採用し、マルチスケールのコンテキストを捉える。
ピラミッドプーリングおよびデコーダー部に3D分離畳み込みを導入し、空間的および時間的演算を分離することで、FLOPsを著しく削減する。
最終特徴マップにフレームレベル特徴（FF）を適用し、局所化精度を向上させる。
エンコーダーとデコーダーのエンドツーエンドアーキテクチャを採用し、符号化された特徴からフル解像度のセグメンテーションマスクを再構築する。
最終特徴マップに分類器ヘッドを追加することで、アクションラベル予測のためのフレームワークをアクションセグメンテーションに拡張する。

実験結果

リサーチクエスチョン

RQ12ストリームアーキテクチャに依存せずに、3D CNNが動画オブジェクトセグメンテーションのための連合空間的・時間的表現を効果的に学習できるか？
RQ23D分離畳み込みは、標準的な3D畳み込みおよびR2plus1D畳み込みと比較して、FLOPsと精度の観点でどのように差をつけるか？
RQ3膨張率とブランチ数を最適化した場合、3Dピラミッドプーリングモジュールの最適な構成は何か？
RQ4光流や2ストリーム入力を用いない状況でも、フレームレベル特徴の追加がセグメンテーション精度を向上させるか？
RQ5同じアーキテクチャを、動画オブジェクトセグメンテーションおよびアクションセグメンテーションの両タスクに効果的に適応できるか？

主な発見

提案された3D分離畳み込みは、標準的な3D畳み込み（1360億FLOPs）と比較してFLOPsを95%削減（60億FLOPs）し、平均IoUは0.3%の低下（77.4 vs. 77.6）にとどめる。
膨張率（6, 12, 18）の3Dピラミッドプーリングモジュールに加え、フレームレベル特徴を組み合わせた場合、DAVIS-16で78.3%の平均IoUを達成し、ベースラインから5%の向上を示す。
4つのブランチ（膨張率：6, 12, 18, 24）を用いた場合、性能は77.9%に低下し、特徴マップのサイズを超える受容 field では利得が減少することが示された。
DAVIS-16（78.3%の平均IoU）およびSomething-Something-V2（85.1%のtop-1精度）の両タスクでSOTA性能を達成し、両タスクで先行手法を上回る。
アブレーションスタディにより、3D分離畳み込みが効率性に不可欠であることが確認され、GPUメモリ使用量が255MBから11MBにまで削減された。
フレームワークは初期化マスクを必要とせず、エンドツーエンドの自己教師あり動画オブジェクトセグメンテーションを実現し、実世界の動画データにおいて優れた一般化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。