[논문 리뷰] Attention is All We Need: Nailing Down Object-centric Attention for Egocentric Activity Recognition
저자들은 객체 영역에 초점을 맞추기 위해 공간 주의로 클래스 활성 맵(CAM)을 사용하는 엔드-투-엔드 CNN-RNN 모델을 제안하고, ConvLSTM 시간 인코딩으로 약지도 학습이 가능한 자기시점 활동 인식을 가능하게 한다; 이는 여러 벤치마크에서 최첨단 성능을 달성한다.
In this paper we propose an end-to-end trainable deep neural network model for egocentric activity recognition. Our model is built on the observation that egocentric activities are highly characterized by the objects and their locations in the video. Based on this, we develop a spatial attention mechanism that enables the network to attend to regions containing objects that are correlated with the activity under consideration. We learn highly specialized attention maps for each frame using class-specific activations from a CNN pre-trained for generic image recognition, and use them for spatio-temporal encoding of the video with a convolutional LSTM. Our model is trained in a weakly supervised setting using raw video-level activity-class labels. Nonetheless, on standard egocentric activity benchmarks our model surpasses by up to +6% points recognition accuracy the currently best performing method that leverages hand segmentation and object location strong supervision for training. We visually analyze attention maps generated by the network, revealing that the network successfully identifies the relevant objects present in the video frames which may explain the strong recognition performance. We also discuss an extensive ablation analysis regarding the design choices.
연구 동기 및 목표
- 물체 위치와 손을 활용하여 섬세한 자기시점 활동 인식을 촉진한다.
- 강력한 감독 없이 공간 주의 맵을 학습하는 엔드-투-엔드 아키텍처를 개발한다.
- 공간 구조를 보존하면서 ConvLSTM으로 시공간 정보를 인코딩한다.
- ablation 연구와 시각화를 통해 주의 맵이 활동과 관련된 객체와 어떻게 정렬되는지 보여준다.
제안 방법
- ImageNet에서 사전 학습된 ResNet-34를 사용해 프레임 특징을 추출하고 클래스 활성 맵(CAM)을 계산한다.
- CAM을 공간 확률 맵으로 변환하고 Hadamard 곱으로 프레임 특징을 가중해 주의로 적용한다( f_SA(i)=f(i) ⊙ softmax(M_c(i)) ).
- 주목된 프레임 특징을 시공간 구조를 보존하며 시간적으로 인코딩하기 위해 합성곱 LSTM(ConvLSTM)을 사용한다.
- 두 단계로 학습한다: 1단계는 분류기와 ConvLSTM 층을 학습; 2단계에서는 ResNet 최종 레이어와 FC 분류기를 추가로 미세 조정해 주의를 특화한다.
- 스택된 옵티컬 플로우(warp flow)로 시간 흐름 스트림을 도입하고, 평균 결합 또는 공동 학습 방법으로 공간 및 시간 스트림을 융합한다(공동 학습은 상대적으로 +10% 이득을 제공합니다).
- 비디오당 25 프레임, 5프레임 옵티컬 플로우 스택으로 GTEA 61, GTEA 71, GTEA Gaze+, EGTEA Gaze+에서 평가하고, 손 분할- 및 시선 기반 감독 방식과 비교한다.
실험 결과
연구 질문
- RQ1약 영상 수준 레이블로 학습된 객체 중심의 공간 주의가 손 주석 없이도 자기시점 활동 인식을 향상시킬 수 있는가?
- RQ2ConvLSTM 기반의 시공간 인코딩이 학습된 공간 주의를 보존하고 미세한 활동에 활용하는가?
- RQ3엔드-투-엔드 CAM 기반 주의가 손/객체 위치에 의존하는 강한 감독 방법과 표준 벤치마크에서 어떻게 비교되는가?
주요 결과
- 제안된 방법은 네 가지 자기시점 데이터셋에서 최첨단 결과를 달성하고, 표준 벤치마크에서 이전 최적 방법보다 최대 6 퍼센트 포인트의 정확도 향상을 보인다.
- ablation 연구는 공간 주의 추가가 주의가 없는 베이스라인 대비 약 12%의 정확도 향상을 보인다.
- 공간 및 시간 스트림을 공동으로 학습시키면 단순 평균 융합보다 약 10%의 향상을 제공한다.
- 시각화를 통해 학습된 주의 맵이 손 분할이나 명시적 객체 감독 없이도 활동과 관련된 객체를 국소화함을 보여준다.
- warp optical flow 보강이 카메라 움직임을 보정해 약 4%의 성능 향상을 가져온다.
- ConvLSTM 기반 아키텍처가 시간에 걸쳐 공간 구조를 보존하여 객체 위치를 비디오 디스크립터로 효과적으로 시공간 인코딩한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.