QUICK REVIEW

[논문 리뷰] ConvNet Architecture Search for Spatiotemporal Feature Learning

Du Tran, Jamie Ray|arXiv (Cornell University)|2017. 08. 16.

Multimodal Machine Learning Applications참고 문헌 1인용 수 349

한 줄 요약

이 논문은 비디오 시공간 특징에 대한 실험적 ConvNet 아키텍처 검색을 수행하여, 다수 벤치마크에서 C3D를 능가하는 깊은 3D 잔차 ConvNet(Res3D)를 얻었으며 더 빠르고 더 작다.

ABSTRACT

Learning image representations with ConvNets by pre-training on ImageNet has proven useful across many visual understanding tasks including object detection, semantic segmentation, and image captioning. Although any image representation can be applied to video frames, a dedicated spatiotemporal representation is still vital in order to incorporate motion patterns that cannot be captured by appearance based models alone. This paper presents an empirical ConvNet architecture search for spatiotemporal feature learning, culminating in a deep 3-dimensional (3D) Residual ConvNet. Our proposed architecture outperforms C3D by a good margin on Sports-1M, UCF101, HMDB51, THUMOS14, and ASLAN while being 2 times faster at inference time, 2 times smaller in model size, and having a more compact representation.

연구 동기 및 목표

비디오 분류를 위한 시공간 특징 학습에 대한 아키텍처 선택이 어떤 영향을 미치는지 조사한다.
비디오 데이터에 맞춘 깊은 3D 잔차 아키텍처를 개발한다.
모델 용량을 제약하여 개선의 원인을 아키텍처에 귀속시키고 규모가 아닌 아키텍처에 기인하도록 한다.
학습된 표현의 다양한 비디오 작업으로의 전이 가능성을 입증한다.

제안 방법

ResNet에서 영감을 받은 공간에서 UCF101에 대한 제어된 아키텍처 검색을 수행한다.
Res3D 아키텍처(3D-ResNet-18)를 제안하고 대규모 시공간 학습을 위해 Sports-1M에서 훈련한다.
고정 파라미터 예산 하에서 입력 샘플링 비율, 입력 해상도, 컨볼루션 유형(3D 대 2D/2.5D)을 체계적으로 평가한다.
정확도, 속도 및 모델 크기 측면에서 이득을 평가하기 위해 C3D 및 2D 기준선과 비교한다.

실험 결과

연구 질문

RQ1비디오 분류를 위한 시공간 특징 학습을 가장 크게 개선하는 아키텍처 변화는 무엇인가?
RQ2비디오 표현에 대해 3D 합성곱이 2D 또는 혼합 합성곱보다 우수한가?
RQ3용량 제약 하에서 샘플링 비율, 입력 해상도, 네트워크 깊이가 성능에 어떤 영향을 미치는가?
RQ4학습된 Res3D 표현이 대규모 비디오 벤치마크와 다양한 작업으로 일반화될 수 있는가?

주요 결과

데이터셋	C3D acc (%)	Res3D acc (%)	Δ acc (%)
Sports-1M	61.1	65.6	4.5
UCF101	82.3	85.8	3.5
HMDB51	51.6	54.9	3.3
THUMOS14	19.0	22.5	3.5
ASLAN	78.3	78.8	0.5

Res3D는 여러 벤치마크(Sports-1M, UCF101, HMDB51, THUMOS14, ASLAN)에서 C3D를 능가한다.
Sports-1M에서 Res3D는 비장기 모델링 방식 중 최첨단 결과를 달성하며 C3D보다 2배 빠르고 모델 크기는 2배 작다.
Res3D는 UCF101 및 HMDB51에서 C3D보다 RGB-전용 성능이 더 강하며(예: 표 9에서 상대 증가 3.5% 및 3.3%), 이는 더 강력하다.
모든 계층에서 3D 합성곱이 3D-2D 또는 2.5D 변형보다 더 나은 성능을 보이며, Res3D의 3D 설계가 명확한 이점을 제공한다.
네트워크 깊이가 약 18-26 계층일 때 비디오 분류에 대한 정확도-속도-메모리의 균형이 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.