QUICK REVIEW

[논문 리뷰] Efficient N-Dimensional Convolutions via Higher-Order Factorization

Jean Kossaifi, Adrian Bulat|arXiv (Cornell University)|2019. 06. 14.

Tensor decomposition and applications인용 수 3

한 줄 요약

이 논문은 고차원 커널을 저질서 성분으로 분해함으로써 효율적이고 분리 가능한 N차원 컨볼루션을 가능하게 하는 텐서 분해 프레임워크인 CP-고차원 컨볼루션(HO-CPConv)을 제안한다. 이는 모델 압축과 아키텍처 효율성을 통합하여 정적 2차원 데이터에서 시간적 3차원 데이터로의 전이(transduction)를 가능하게 하며, AffectNet, SEWA, AFEW-VA에서 스펙트로-시간적 얼굴 감정 인식 분야에서 최고 성능을 보여준다.

ABSTRACT

Training deep neural networks with spatio-temporal (i.e., 3D) or multidimensional convolutions of higher-order is computationally challenging due to millions of unknown parameters across dozens of layers. To alleviate this, one approach is to apply low-rank tensor decompositions to convolution kernels in order to compress the network and reduce its number of parameters. Alternatively, new convolutional blocks, such as MobileNet, can be directly designed for efficiency. In this paper, we unify these two approaches by proposing a tensor factorization framework for efficient multidimensional (separable) convolutions of higher-order. Interestingly, the proposed framework enables a novel higher-order transduction, allowing to train a network on a given domain (e.g., 2D images or N-dimensional data in general) and using transduction to generalize to higher-order data such as videos (or (N+K)-dimensional data in general), capturing for instance temporal dynamics while preserving the learnt spatial information. We apply the proposed methodology, coined CP-Higher-Order Convolution (HO-CPConv), to spatio-temporal facial emotion analysis. Most existing facial affect models focus on static imagery and discard all temporal information. This is due to the above-mentioned burden of training 3D convolutional nets and the lack of large bodies of video data annotated by experts. We address both issues with our proposed framework. Initial training is first done on static imagery before using transduction to generalize to the temporal domain. We demonstrate superior performance on three challenging large scale affect estimation datasets, AffectNet, SEWA, and AFEW-VA.

연구 동기 및 목표

다수의 레이어를 거쳐 수백만 개의 파라미터를 가진 고차원(예: 3D) 컨볼루션을 사용하는 딥 네트워크 학습의 계산 부담을 해결하기 위해.
스펙트로-시간적 감정 인식을 위한 대규모 전문가 주석이 부여된 영상 데이터셋의 부족을 해결하기 위해.
저질서 텐서 분해를 통한 모델 압축과 효율적인 네트워크 설계를 통합하여 파라미터 수와 학습 비용을 감소시키기 위해.
정적 2D 이미지 데이터에서 시간적 3D 영상 데이터로의 전이를 가능하게 하여 공간적 특징을 유지하면서 시간적 동역학을 학습하기 위해.
학습 시 광범위한 3D 영상 데이터가 필요 없이 대규모 감정 추정 벤치마크에서 최고 성능을 달성하기 위해.

제안 방법

N차원 컨볼루션 커널을 CANDECOMP/PARAFAC(CP) 형식을 사용해 랭크-일치 텐서의 합으로 분해하는 고차원 텐서 분해 프레임워크를 제안한다.
다차원 컨볼루션의 파라미터 수를 줄이면서도 표현 능력을 유지하기 위해 저질서 분해를 적용한다.
기존에 훈련된 2D 네트워크의 가중치를 분해하여 3D 커널을 초기화함으로써 2D 네트워크에서 3D 네트워크로 지식을 전이하는 새로운 전이 메커니즘을 설계한다.
분해된 커널 구조를 활용해 영상과 같은 고차원 데이터에서의 효율적인 추론과 학습을 가능하게 한다.
공유된 공간적 및 시간적 구성 요소를 가진 스펙트로-시간 모델링에 적합한 딥 러닝 아키텍처에 분해된 컨볼루션을 통합한다.
먼저 정적 이미지 데이터에서 끝내기까지 훈련한 후, 다시 시작하지 않고도 시간 데이터에 적응하기 위해 전이를 통해 미세조정한다.

실험 결과

연구 질문

RQ1텐서 분해는 N차원 네트워크의 고차원 컨볼루션 커널을 효율적으로 압축하는 데 사용될 수 있는가?
RQ22D 이미지 데이터에서 훈련된 모델이 커널 분해를 통한 전이를 통해 3D 영상 데이터로 효과적으로 일반화될 수 있는가?
RQ3제안된 CP-고차원 컨볼루션 프레임워크는 스펙트로-시간적 얼굴 감정 인식에서 기존 방법을 초월하는가?
RQ4저질서 분해는 전이 과정에서 공간적 및 시간적 표현을 어느 정도 유지할 수 있는가?
RQ5이 프레임워크는 대규모 감정 추정 데이터셋에서 성능을 유지하거나 향상시키면서도 모델 복잡성을 줄일 수 있는가?

주요 결과

제안된 CP-고차원 컨볼루션(HO-CPConv) 프레임워크는 AffectNet, SEWA, AFEW-VA와 같은 세 개의 대규모 감정 추정 데이터셋에서 최고 성능을 달성한다.
이 방법은 2D 이미지 데이터에서 3D 영상 데이터로의 효과적인 전이를 가능하게 하여, 대규모 3D 영상 주석이 필요 없이도 시간적 동역학을 학습할 수 있다.
저질서 텐서 분해를 적용함으로써 3D 컨볼루션의 파라미터 수가 크게 감소하여 계산 효율성이 향상된다.
정적 이미지 데이터에서 높은 정확도를 유지하면서도 시간적 데이터로의 일반화가 효과적으로 이루어지며, 전이 메커니즘의 강건성을 입증한다.
특히 3D 영상 데이터가 제한된 상황에서 기존 방법보다 파라미터 효율성과 성능 면에서 뛰어나다.
제거 실험 결과, 분해 전략과 전이 파이프라인 모두 모델 성공에 핵심적인 역할을 하며, 둘 중 하나라도 제거하면 성능 저하가 발생한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.