[논문 리뷰] Baidu-UTS Submission to the EPIC-Kitchens Action Recognition Challenge 2019
이 논문은 EPIC-Kitchens 2019 행동 인식 챌린지의 수상자 솔루션을 제시하며, 3D CNN 클립 특징과 맥락 프레임에서 유도된 객체 검출 특징을 융합하기 위한 게이팅된 특징 융합기(Gated Feature Aggregator, GFA)를 도입하여 동사 및 명사 인식 성능을 향상시킨다. 객체 인식 특징을 활용하고 학습을 안정화시킴으로써, 본 방법은 볼록한 테스트 세트에서 69.80%의 top-1 정확도와 비볼록한 테스트 세트에서 명사 인식에 대해 52.27%의 정확도를 기록하여 최신 기술 수준(SOTA) 성능을 달성한다.
In this report, we present the Baidu-UTS submission to the EPIC-Kitchens Action Recognition Challenge in CVPR 2019. This is the winning solution to this challenge. In this task, the goal is to predict verbs, nouns, and actions from the vocabulary for each video segment. The EPIC-Kitchens dataset contains various small objects, intense motion blur, and occlusions. It is challenging to locate and recognize the object that an actor interacts with. To address these problems, we utilize object detection features to guide the training of 3D Convolutional Neural Networks (CNN), which can significantly improve the accuracy of noun prediction. Specifically, we introduce a Gated Feature Aggregator module to learn from the clip feature and the object feature. This module can strengthen the interaction between the two kinds of activations and avoid gradient exploding. Experimental results demonstrate our approach outperforms other methods on both seen and unseen test set.
연구 동기 및 목표
- 에고세트릭 비디오에서 행동 인식, 특히 작은 객체, 운동 왜곡, 가림 등으로 인해 어려운 명사 예측 성능을 향상시키기 위해.
- 표준 3D CNN이 제1인칭 비디오 이해에서 한계를 보이는 점을 보완하기 위해 객체 검출 특징을 감독 정보로 통합하기 위해.
- 새로운 게이팅된 특징 융합기(Gated Feature Aggregator) 모듈을 통해 클립 수준 및 객체 수준 표현 간의 특징 상호작용을 향상시키고 학습을 안정화시키기 위해.
- EPIC-Kitchens 데이터셋의 볼록 및 비볼록 테스트 분할에서 최신 기술 수준의 성능을 달성하기 위해.
제안 방법
- 프레임워크는 이중 브랜치 아키텍처를 사용한다: 하나의 3D CNN 브랜치는 중심 비디오 클립을 처리하여 클립 수준 특징을 추출하고, 다른 브랜치는 클립 주변의 맥락 프레임에 사전 학습된 Faster R-CNN 검출기를 적용하여 객체 특징을 추출한다.
- 객체 특징은 상위-K 경계 상자(K=10)에서 RoIAlign을 사용하여 2D 특징 맵에서 추출되며, 이후 최대 풀링을 거쳐 게이팅된 특징 융합기(Gated Feature Aggregator, GFA) 모듈에 입력된다.
- GFA 모듈은 학습 가능한 게이트를 통해 클립 특징과 객체 특징을 게이팅하고 융합함으로써 동적 상호작용을 가능하게 하고 학습 중 기울기 폭발을 줄인다.
- GFA는 정규화 및 스케일링 연산(Type A/B)을 사용하여 특징 융합을 안정화시키고 표현 품질을 향상시킨다.
- 최종 융합 특징은 독립적으로 동사 및 명사 분류에 사용되며, 행동 예측은 동사 및 명사 확률의 곱으로 도출되며, 학습 빈도에 따라 재가중된다.
- 모델은 모멘타임을 사용한 SGD로 엔드 투 엔드로 학습되며, 최종 제출은 전체 훈련 세트로 학습된 모델의 앙상블을 사용한다.
실험 결과
연구 질문
- RQ1어떻게 객체 검출 특징이 에고세트릭 비디오 행동 인식에서 명사 인식 정확도를 향상시킬 수 있는가?
- RQ2학습 가능한 융합 모듈인 게이팅된 특징 융합기(Gated Feature Aggregator)가 클립 및 객체 특징 간의 특징 상호작용을 향상시키고 학습을 안정화시킬 수 있는가?
- RQ3비디오 클립 주변의 맥락 프레임을 통합함으로써 객체 검출 특징의 운동 왜곡 및 가림에 대한 강건성이 향상되는가?
- RQ4제안된 방법은 EPIC-Kitchens의 볼록 및 비볼록 테스트 세트에서 기준 3D CNN 및 이중 스트림 모델과 비교해 어떻게 성능을 내는가?
- RQ5행동 빈도에 따라 확률을 재가중하는 전략이 최종 행동 인식 성능 향상에 얼마나 기여하는가?
주요 결과
- 제안된 방법은 볼록 테스트 세트에서 동사 인식에 대해 69.80%의 top-1 정확도와 90.95%의 top-5 정확도를 기록하여 기준 이중 스트림 I3D 모델보다 8.36%포인트 높은 성능을 달성한다.
- 명사 인식의 경우, 비볼록 테스트 세트(s1)에서 52.27%의 top-1 정확도와 76.71%의 top-5 정확도를 기록하였으며, 검증 세트에서의 기준 39.09%의 top-1 정확도보다 뚜렷한 향상이 있었다.
- ResNet-50를 사용하고 2048차원 객체 특징을 사용할 경우, Type A/B 연산을 적용한 게이팅된 특징 융합기(GFA)는 기준 대비 최대 7.92%포인트의 top-1 명사 정확도 향상을 기록하였다.
- 행동 빈도 기반 재가중 전략은 훈련/검증 세트에서 top-1 정확도를 1.30%포인트, top-5 정확도를 1.71%포인트 향상시켰다.
- 최종 앙상블 모델은 볼록(s1) 및 비볼록(s2) 테스트 세트에서 최신 기술 수준의 성능을 달성하였으며, s1에서 41.37%의 top-1 행동 정확도와 s2에서 25.06%의 top-1 정확도를 기록하였다.
- 제거 실험 결과, GFA는 단순 연결보다 더 효과적이며, 맥락 프레임의 사용은 운동 왜곡 및 가림 상황에서 객체 특징의 강건성을 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.