QUICK REVIEW

[논문 리뷰] Towards Good Practices for Very Deep Two-Stream ConvNets

Limin Wang, Yuanjun Xiong|arXiv (Cornell University)|2015. 07. 08.

Human Pose and Action Recognition참고 문헌 19인용 수 385

한 줄 요약

이 논문은 매우 깊은 두 개의 스트림 컨볼루션 네트워크(두 스트림 ConvNets)를 제안하며, 이미지 분류 모델(GoogLeNet, VGGNet)을 비디오 영역에 적응시켜 비디오 행동 인식을 수행한다. 작은 데이터셋에서 과적합을 방지하기 위해 특화된 훈련 기법을 도입하였다. 사전 훈련, 데이터 증강, 낮은 학습률, 높은 드롭아웃을 활용하여 UCF101에서 91.4%의 새로운 최고 성능을 달성하였다.

ABSTRACT

Deep convolutional networks have achieved great success for object recognition in still images. However, for action recognition in videos, the improvement of deep convolutional networks is not so evident. We argue that there are two reasons that could probably explain this result. First the current network architectures (e.g. Two-stream ConvNets) are relatively shallow compared with those very deep models in image domain (e.g. VGGNet, GoogLeNet), and therefore their modeling capacity is constrained by their depth. Second, probably more importantly, the training dataset of action recognition is extremely small compared with the ImageNet dataset, and thus it will be easy to over-fit on the training dataset. To address these issues, this report presents very deep two-stream ConvNets for action recognition, by adapting recent very deep architectures into video domain. However, this extension is not easy as the size of action recognition is quite small. We design several good practices for the training of very deep two-stream ConvNets, namely (i) pre-training for both spatial and temporal nets, (ii) smaller learning rates, (iii) more data augmentation techniques, (iv) high drop out ratio. Meanwhile, we extend the Caffe toolbox into Multi-GPU implementation with high computational efficiency and low memory consumption. We verify the performance of very deep two-stream ConvNets on the dataset of UCF101 and it achieves the recognition accuracy of $91.4\%$.

연구 동기 및 목표

얕은 아키텍처와 작은 훈련 데이터셋으로 인해 깊은 ConvNets의 비디오 행동 인식 성능이 제한되는 문제를 해결한다.
UCF101과 같은 작은 비디오 데이터셋에서 매우 깊은 두 스트림 네트워크를 훈련할 때 과적합을 방지하기 위해 효과적인 훈련 기법을 설계한다.
다중 GPU 훈련을 고성능과 낮은 메모리 소비로 가능하게 하여 확장 가능한 비디오 작업을 위한 깊은 학습을 위한 Caffe 도구를 확장한다.
매우 깊은 네트워크 아키텍처와 강력한 훈련 전략을 조합하여 UCF101에서 최고 성능을 입증한다.

제안 방법

공간 스트림과 시간 스트림에 각각 적용하기 위해 매우 깊은 ImageNet 아키텍처(GoogLeNet, VGGNet)를 비디오 영역에 적응시킨다.
공간 스트림과 시간 스트림 양쪽 모두에 ImageNet에서의 사전 훈련을 통해 초기화 및 일반화 성능을 향상시킨다.
작은 비디오 데이터셋에서의 훈련 동안 과적합을 줄이기 위해 더 낮은 학습률과 더 높은 드롭아웃 비율을 사용한다.
효율적인 훈련 데이터 다양성과 내성 강도를 높이기 위해 광범위한 데이터 증강 기법을 적용한다.
다중 GPU 환경에서 높은 계산 효율성과 낮은 메모리 소비를 달성하기 위해 Caffe의 다중 GPU 버전을 구현한다.
결합 전략은 공간 스트림과 시간 스트림의 예측을 가중 선형 조합(시간 스트림 대 공간 스트림 비율 2:1)으로 융합한다.

실험 결과

연구 질문

RQ1이미지 분류 모델에서 유도된 매우 깊은 두 스트림 ConvNets가 행동 인식에서 뛰어난 성능을 낼 수 있는가?
RQ2UCF101과 같은 작은 비디오 데이터셋에서 매우 깊은 네트워크를 훈련할 때 과적합을 방지하기 위해 어떤 특정 훈련 기법이 필요한가?
RQ3아키텍처의 깊이와 훈련 방법론이 비디오 행동 인식의 정확도에 어떻게 상호작용하는가?
RQ4사전 훈련, 데이터 증강, 정규화가 제한된 비디오 데이터셋에서 성능 향상에 얼마나 기여하는가?
RQ5Caffe 딥 러닝 프레임워크는 매우 깊은 두 스트림 네트워크를 위한 효율적인 다중 GPU 훈련을 효과적으로 지원할 수 있는가?

주요 결과

제안된 매우 깊은 두 스트림 ConvNets는 UCF101 데이터셋에서 최고 성능인 91.4%의 정확도를 달성하였다.
VGGNet-16는 공간 스트림에서 약 5% 향상되고 시간 스트림에서 약 4% 향상되어 더 얕은 아키텍처(예: ClarifaiNet, GoogLeNet)를 능가하였다.
매우 깊은 두 스트림 네트워크는 원래의 두 스트림 ConvNets보다 3.4% 높은 정확도를 기록하여 깊이 증가의 이점을 입증하였다.
제안된 방법과 이전 방법(TDD+FV의 90.3%) 간의 성능 격차는 1.1%로, 본 방법의 우수성을 확인하였다.
제안된 양호한 훈련 기법이 없을 경우, THUMOS15에서 더 깊은 모델은 일반화에 실패함을 확인하여, 훈련 전략이 성공에 필수적임을 입증하였다.
다중 GPU Caffe 구현은 낮은 메모리 소비로 효율적인 훈련을 가능하게 하여, 대규모 비디오 작업을 위한 깊은 학습을 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.