QUICK REVIEW

[논문 리뷰] Temporal Context Network for Activity Localization in Videos

Xiyang Dai, Bharat Singh|arXiv (Cornell University)|2017. 08. 08.

Human Pose and Action Recognition참고 문헌 33인용 수 66

한 줄 요약

Temporal Context Network (TCN)을 도입하여 더 큰 스케일의 컨텍스트를 사용해 시간적으로 제안된 세그먼트를 순위 매기고, 명시적 다중 스케일 컨텍스트 샘플링 및 시간 컨볼루션으로 ActivityNet 및 THUMOS14에서 최첨단 결과를 달성한다.

ABSTRACT

We present a Temporal Context Network (TCN) for precise temporal localization of human activities. Similar to the Faster-RCNN architecture, proposals are placed at equal intervals in a video which span multiple temporal scales. We propose a novel representation for ranking these proposals. Since pooling features only inside a segment is not sufficient to predict activity boundaries, we construct a representation which explicitly captures context around a proposal for ranking it. For each temporal segment inside a proposal, features are uniformly sampled at a pair of scales and are input to a temporal convolutional neural network for classification. After ranking proposals, non-maximum suppression is applied and classification is performed to obtain final detections. TCN outperforms state-of-the-art methods on the ActivityNet dataset and the THUMOS14 dataset.

연구 동기 및 목표

자르지 않은 비디오에서 인간 활동의 정밀한 시간적 로컬라이제이션을 촉진한다.
제안 경계 밖의 시간 컨텍스트를 통합한 제안 순위 메커니즘을 개발한다.
두 스트림 특징 표현과 다중 스케일 간 컨텍스트 샘플링을 활용한다.
제안 순위와 분류 단계의 통합으로 최종 검출을 얻는다.
ActivityNet과 THUMOS14에서 이전 방법들보다 성능 향상을 입증한다.

제안 방법

잠재적인 활동 영역을 포괄하기 위해 제안을 일정 간격으로 다중 시간 스케일에 걸쳐 배치한다.
제안 내부와 다음 큰 스케일에서 특징을 샘플링하여 컨텍스트 인식 특징 표현을 구성한 뒤 이를 연결한다.
쌍으로 된 스케일 특징에 대해 시간적 컨볼루션을 적용하여 제안의 전경/배경을 예측한다.
제안 특징에 대한 이중 선형 풀링을 사용하여 강건한 동작 분류를 수행하고, 이후 부호화 제곱근과 L2 정규화를 적용한다.
제안 순위자와 최종 분류기에 대해 교차 엔트로피 손실로 학습하며, 균형 잡힌 미니배치를 사용한다.
탐지 최종화를 위해 비최대 억제(NMS)로 평가한다.

실험 결과

연구 질문

RQ1더 큰 스케일의 시간 맥락을 도입하면 시간적 활동 제안의 순위가 향상되는가?
RQ2컨텍스트 윈도우의 스케일이 로컬라이제이션 성능 및 IoU 임계값 전반의 mAP에 어떤 영향을 미치는가?
RQ3컨텍스트 기반의 순위가 적용된 제안 기반 검출 시스템이 untrimmed 비디오에서 LSTM 기반 또는 글로벌 특징 접근법을 능가하는가?
RQ4ActivityNet 및 THUMOS14에서 제안 수의 증가가 탐지 성능에 미치는 영향은 무엇인가?

주요 결과

메서드	mAP@.5	mAP@.75	mAP@.95	메모
Ours (ActivityNet 20 proposals)	37.49	23.47	4.47	Evaluation server result
Without Context (ActivityNet, top-20 proposals)	15.91	3.11	0.13	Context not used in ranking

시간 맥 context는 특히 더 높은 IoU 임계값에서 제안 순위를 크게 향상시킨다.
컨텍스트 기반 제안은 다수의 임계값에서 컨텍스트 없는 대비보다 더 높은 mAP를 보인다(활동 네트 검증): mAP@.5=36.17, mAP@.75=21.12, mAP@.95=3.89(맥락 사용) vs 15.91, 3.11, 0.13(맥락 없음)
컨텍스트 스케일이 약 2일 때 최상의 성능을 제공하며, 더 크거나 작은 스케일은 효과를 감소시킨다.
ActivityNet 평가 서버의 최상위 결과: mAP@.5=37.49, mAP@.75=23.47, mAP@.95=4.47.
THUMOS14에서 본 방법은 CDC와 결합될 때 평균 리콜이 더 높아지고 탐지 성능이 향상되며, 여러 기준선보다 우수하다.
맥락을 포함한 제안 순위자의 제안 방법은 (예: DAPs, SCNN) 이전 제안 방법들보다 리콜 및 탐지 지표에서 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.