[논문 리뷰] A Better Baseline for AVA
간단한 AVA 동작 로컬라이제이션 기본선으로, Kinetics에서 사전학습된 시공간 I3D 특징을 사용한 Faster R-CNN이 AVA v2.1 검증 및 CVPR 2018 테스트 제출에서 최첨단 성능을 달성합니다.
We introduce a simple baseline for action localization on the AVA dataset. The model builds upon the Faster R-CNN bounding box detection framework, adapted to operate on pure spatiotemporal features - in our case produced exclusively by an I3D model pretrained on Kinetics. This model obtains 21.9% average AP on the validation set of AVA v2.1, up from 14.5% for the best RGB spatiotemporal model used in the original AVA paper (which was pretrained on Kinetics and ImageNet), and up from 11.3 of the publicly available baseline using a ResNet101 image feature extractor, that was pretrained on ImageNet. Our final model obtains 22.8%/21.9% mAP on the val/test sets and outperforms all submissions to the AVA challenge at CVPR 2018.
연구 동기 및 목표
- AVA에서 간단하고 강력한 기본선을 통해 향상된 동작 로컬라이제이션을 동기부여한다.
- AVA의 사전학습, 데이터 증강, 경계상자 회귀 등 디자인 선택을 조사한다.
- I3D의 시공간 구조를 최종 분류까지 보존의 효과를 보여준다.
제안 방법
- Kinetics에서 사전학습된 Mixed_4f까지의 I3D 특징에서 시작한다.
- RPN(지역 제안 네트워크)을 사용하여 중심 프레임의 RoI 제안을 추출한다.
- 시간에 걸쳐 RoIPool을 사용하여 4D 지역 특징을 형성하기 위해 제안을 시간상으로 복제한다.
- 独立 시그모이드를 가진 각 동작 클래스에 대해 남은 I3D 블록(혼합_5c까지)을 사용하여 지역 특징을 분류한다.
- 클래스 무관 벡터 회귀 및 클래스별 NMS를 적용하고 상위 300개 상자를 유지한다.
- 데이터 증강 및 사전학습으로 학습하고, 필요 시 JFT-사전학습 ResNet-101에서 전역 장면 특징을 연결한다.
실험 결과
연구 질문
- RQ1단일화된 시공간 파이프라인이 일관된 I3D 특징으로 RGB 기반 기본선을 AVA에서 능가할 수 있는가?
- RQ2사전학습, 데이터 증강, 경계상자 회귀 선택이 AVA 성능에 어떤 영향을 미치는가?
- RQ3장면 맥락을 포함하는 것이 AVA의 동작 로컬라이제이션에 어떤 기여를 하는가?
주요 결과
- 제안된 방법으로 검증 mAP가 11.3%(ResNet 기본선)에서 21.9%로 향상되었다.
- Kinetics로의 사전학습은 무작위 초기화 대비 약 2% 점프를 제공한다.
- 클래스 무관 벡터 회귀는 클래스별 회귀 대비 대략 4%의 이득을 제공한다.
- 데이터 증강(플립, 자르기)이 성능을 거의 5% 향상시킨다.
- JFT-사전학습 특징을 통한 전체 이미지 장면 맥락 포함은 약 0.9%의 추가 이득을 준다.
- 테스트 mAP는 AVA 테스트 세트에서 21.91%(Ours + JFT), 21.03%(챌린지 제출)로 CVPR 2018 제출들보다 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.