QUICK REVIEW

[論文レビュー] Efficient N-Dimensional Convolutions via Higher-Order Factorization

Jean Kossaifi, Adrian Bulat|arXiv (Cornell University)|Jun 14, 2019

Tensor decomposition and applications被引用数 3

ひとこと要約

本論文では、高次元カーネルを低ランク成分に分解することにより、効率的で分離可能なN次元畳み込みを可能にするテンソル因子分解フレームワーク、CP-ハイパーオーダー畳み込み（HO-CPConv）を提案する。この手法はモデル圧縮とアーキテクチャの効率性を統合し、静的2次元データから時間的3次元データへの伝達を可能にし、AffectNet、SEWA、AFEW-VAにおけるスパatio-temporal顔の感情認識で最先端の性能を示している。

ABSTRACT

Training deep neural networks with spatio-temporal (i.e., 3D) or multidimensional convolutions of higher-order is computationally challenging due to millions of unknown parameters across dozens of layers. To alleviate this, one approach is to apply low-rank tensor decompositions to convolution kernels in order to compress the network and reduce its number of parameters. Alternatively, new convolutional blocks, such as MobileNet, can be directly designed for efficiency. In this paper, we unify these two approaches by proposing a tensor factorization framework for efficient multidimensional (separable) convolutions of higher-order. Interestingly, the proposed framework enables a novel higher-order transduction, allowing to train a network on a given domain (e.g., 2D images or N-dimensional data in general) and using transduction to generalize to higher-order data such as videos (or (N+K)-dimensional data in general), capturing for instance temporal dynamics while preserving the learnt spatial information. We apply the proposed methodology, coined CP-Higher-Order Convolution (HO-CPConv), to spatio-temporal facial emotion analysis. Most existing facial affect models focus on static imagery and discard all temporal information. This is due to the above-mentioned burden of training 3D convolutional nets and the lack of large bodies of video data annotated by experts. We address both issues with our proposed framework. Initial training is first done on static imagery before using transduction to generalize to the temporal domain. We demonstrate superior performance on three challenging large scale affect estimation datasets, AffectNet, SEWA, and AFEW-VA.

研究の動機と目的

複数の層にわたって数百万のパラメータを有する高次元（例：3次元）畳み込みを伴う深層ネットワークの学習における計算負荷の低減を目的とする。
スパatio-temporal感情認識のための大規模で専門家がアノテートした動画データセットの不足を克服することを目的とする。
低ランクテンソル分解によるモデル圧縮と効率的なネットワーク設計を統合し、パラメータ数と学習コストを削減することを目的とする。
静的2次元画像データから時間的3次元動画データへの伝達を可能にし、空間的特徴を保持しながら時間的ダイナミクスを学習することを目的とする。
訓練時に大規模な3次元動画データを必要としない大規模な感情推定ベンチマークで最先端の性能を達成することを目的とする。

提案手法

N次元畳み込みカーネルをCANDECOMP/PARAFAC（CP）形式を用いてランク1テンソルの和に分解する、より高次元のテンソル因子分解フレームワークを提案する。
低ランク分解を適用することで、多次元畳み込みにおけるパラメータ数を削減しつつ、表現能力を維持する。
2次元重みの因子分解を用いて3次元カーネルを初期化することで、事前学習済み2次元ネットワークから3次元ネットワークへの知識伝達を実現する、新しい伝達メカニズムを設計する。
因子化されたカーネル構造を活用し、動画などの高次元データにおける効率的な推論と学習を可能にする。
空間的および時間的成分を共有する構造を備えた、スパatio-temporalモデリングに適した深層学習アーキテクチャに因子化畳み込みを統合する。
まず静的画像データ上でモデルをエンドツーエンドに学習し、その後、再学習をせずに時間的データに適応するための伝達による微調整を実施する。

実験結果

リサーチクエスチョン

RQ1テンソル因子分解を用いて、N次元ネットワークにおける高次元畳み込みカーネルの効率的圧縮が可能か？
RQ22次元画像データで学習したモデルが、カーネル因子分解を用いた伝達によって、3次元動画データに効果的に一般化可能か？
RQ3提案されたCP-ハイパーオーダー畳み込みフレームワークは、スパatio-temporal顔の感情認識で既存手法を上回る性能を示すか？
RQ4低ランク分解は、伝達過程において空間的および時間的表現をどの程度保持できるか？
RQ5このフレームワークは、モデルの複雑さを低減しつつ、大規模な感情推定データセットにおける性能を維持または向上させられるか？

主な発見

提案されたCP-ハイパーオーダー畳み込み（HO-CPConv）フレームワークは、AffectNet、SEWA、AFEW-VAの3つの大規模な感情推定データセットで最先端の性能を達成した。
本手法は、2次元画像データから3次元動画データへの効果的な伝達を可能にし、大規模な3次元動画アノテーションを必要とせずに時間的ダイナミクスを学習できるようになった。
低ランクテンソル分解を適用することで、3次元畳み込みのパラメータ数が顕著に削減され、計算効率が向上した。
静的画像データにおいても高い精度を維持しながら、時間的データへの一般化が効果的に実現されており、伝達メカニズムの頑健性が示された。
特に3次元動画データが限られる状況においても、パラメータ効率性と性能の両面で既存手法を上回った。
アブレーションスタディにより、因子化戦略と伝達パイプラインがモデルの成功に不可欠であることが確認され、いずれのコンponentを削除しても性能が著しく低下した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。