QUICK REVIEW

[논문 리뷰] An End-to-end 3D Convolutional Neural Network for Action Detection and Segmentation in Videos

Rui Hou, Chen Chen|arXiv (Cornell University)|2017. 11. 30.

Human Pose and Action Recognition참고 문헌 1인용 수 41

한 줄 요약

이 논문은 영상 동작 검출 및 분할을 위한 엔드 투 엔드 3D CNN 프레임워크를 제안하며, 두 가지 접근 방식을 도입한다: 상향식 튜브 프포절 기반 검출을 위한 Tube-CNN(T-CNN)과 하향식 픽셀 수준의 동작 분할을 위한 Segmentation-Driven CNN(ST-CNN). ST-CNN는 DAVIS에서 77.6%의 평균 재현율 지수를 기록하여, 낮은 대trast 및 동적인 영상에서 도전적인 상황에서도 기존 방법들을 능가하는 최신 기술 수준의 성능을 달성한다.

ABSTRACT

In this paper, we propose an end-to-end 3D CNN for action detection and segmentation in videos. The proposed architecture is a unified deep network that is able to recognize and localize action based on 3D convolution features. A video is first divided into equal length clips and next for each clip a set of tube proposals are generated based on 3D CNN features. Finally, the tube proposals of different clips are linked together and spatio-temporal action detection is performed using these linked video proposals. This top-down action detection approach explicitly relies on a set of good tube proposals to perform well and training the bounding box regression usually requires a large number of annotated samples. To remedy this, we further extend the 3D CNN to an encoder-decoder structure and formulate the localization problem as action segmentation. The foreground regions (i.e. action regions) for each frame are segmented first then the segmented foreground maps are used to generate the bounding boxes. This bottom-up approach effectively avoids tube proposal generation by leveraging the pixel-wise annotations of segmentation. The segmentation framework also can be readily applied to a general problem of video object segmentation. Extensive experiments on several video datasets demonstrate the superior performance of our approach for action detection and video object segmentation compared to the state-of-the-arts.

연구 동기 및 목표

딥 러닝을 활용한 영상 내 시공간 동작 검출의 과제를 해결하기 위해, 특히 높은 계산 비용과 대규모 애너테이션된 영상 데이터의 부족으로 인한 과제를 해결하고자 한다.
앵커 박스에 의존하는 상향식 검출 방법의 한계를 극복하고자 하며, 이를 위해 회귀 분석을 위한 대규모 애너테이션된 바운딩 박스가 필요로 하는 문제를 해결하고자 한다.
粗안 바운딩 박스 프포절을 고밀도 픽셀 수준의 분할 맵으로 대체하여 정위치 정확도를 향상시키고자 한다.
동작 인식과 정위치를 위한 시공간 특징을 동시에 학습하는 통합형 엔드 투 엔드 3D CNN 프레임워크를 개발하고자 한다.
특히 운동 왜곡과 낮은 대비를 보이는 복잡한 시나리오에서 DAVIS 및 THUMOS14와 같은 벤치마크 데이터셋에서 뛰어난 성능을 보여주고자 한다.

제안 방법

입력 영상을 동일한 길이의 클립으로 나누고, 3D CNN 특징에서 3D 튜브 프포절을 생성하기 위해 튜브 프포절 네트워크(TPN)를 사용한다.
이웃 클립 간의 액션성 점수와 시공간적 오버랩을 이용해 튜브 프포절을 연결하여 완전한 동작 튜브를 형성한다.
링크된 튜브에서 고정된 크기의 특징을 추출하기 위해 튜브 오브 이즈니스(ToI) 풀링 레이어를 적용한다.
엔코더-디코더 3D CNN 아키텍처를 사용하여 엔드 투 엔드 픽셀 수준의 동작 분할을 수행하며, 튜브 프포절 생성을 고밀도 전경 맵 예측으로 대체한다.
분할 맵을 이용해 바운딩 박스를 생성함으로써 앵커 프라이어를 필요로 하지 않는 하향식 검출 전략을 구현한다.
ST-CNN 버전은 클립을 단일 순차 전진 추론으로 처리하여 두 단계 파이프라인을 제거함으로써 T-CNN 대비 3배 빠른 성능을 달성한다.

실험 결과

연구 질문

RQ1통합형 3D CNN 프레임워크가 프레임 수준의 프포절 생성에 의존하지 않고 영상 내 엔드 투 엔드 동작 검출 및 분할을 달성할 수 있는가?
RQ2하향식 픽셀 수준의 분할 방식이 상향식 튜브 프포절 기반 검출 방식과 비교해 정위치 정확도와 시각적 변동에 대한 강건성 측면에서 어떻게 성능을 내는가?
RQ3엔코더-디코더 3D CNN 아키텍처가 최소한의 감독 정보로도 고밀도 영상 분할을 위한 시공간 표현을 효과적으로 학습할 수 있는가?
RQ4두 단계(T-CNN)와 단일 단계(ST-CNN) 검출 파이프라인 간의 계산 효율성 트레이드오프는 3D CNN 기반 동작 검출에서 어떻게 나타나는가?
RQ5낮은 대비, 운동 왜곡 또는 작은 객체 크기를 포함한 도전적인 영상 시퀀스에서 제안된 방법은 최신 기술 수준의 방법들과 비교해 어떻게 성능을 내는가?

주요 결과

제안된 ST-CNN 방법은 DAVIS 데이터셋에서 평균 재현율 지수 77.6%를 기록하여 ARP, LVO, FSEG를 포함한 모든 기존 방법들을 능가한다.
Blackswan, Scooter-Black, Car-Roundabout 시퀀스와 같이 도전적인 저대비 및 동적인 장면에서 높은 재현율 지수를 기록하여 저대비 및 동적인 장면에서 뛰어난 성능을 입증한다.
qualitative 비교를 통해 다른 방법들이 놓치는 세부 사항인 휠, 다리, 尾 등을 성공적으로 분할함을 보여준다.
ST-CNN 모델은 단일 단계 추론 파이프라인 덕분에 T-CNN 대비 3배 빠르며, 40프레임 영상 처리에 단 0.7초가 소요된다.
DAVIS에서 95.2%의 리콜과 94.7%의 F-측정치를 기록하여 동작 이동 및 가림 현상에 대해 매우 높은 검출 정확도와 강건성을 보여준다.
모델은 시간적으로 매우 안정적인 성능을 보이며, 감쇠 점수 2.3을 기록하여 대부분의 베이스라인에 비해 훨씬 낮아 프레임 간 일관된 분할을 유지함을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.