QUICK REVIEW

[논문 리뷰] Action2Vec: A Crossmodal Embedding Approach to Action Learning

Meera Hahn, Andrew Silva|arXiv (Cornell University)|2019. 01. 02.

Human Pose and Action Recognition참고 문헌 38인용 수 42

한 줄 요약

Action2Vec은 비디오 유도 시공간 특성과 동사 기반 Word2Vec 임베딩을 결합하여 행동을 위한 공동 시각-의미 임베딩 공간을 구축하고, 제로샷 행동 인식 및 의미적 유사성 평가를 가능하게 한다.

ABSTRACT

We describe a novel cross-modal embedding space for actions, named Action2Vec, which combines linguistic cues from class labels with spatio-temporal features derived from video clips. Our approach uses a hierarchical recurrent network to capture the temporal structure of video features. We train our embedding using a joint loss that combines classification accuracy with similarity to Word2Vec semantics. We evaluate Action2Vec by performing zero shot action recognition and obtain state of the art results on three standard datasets. In addition, we present two novel analogy tests which quantify the extent to which our joint embedding captures distributional semantics. This is the first joint embedding space to combine verbs and action videos, and the first to be thoroughly evaluated with respect to its distributional semantics.

연구 동기 및 목표

액션 동사에서 얻은 언어적 신호와 비디오로부터 얻은 시공간 특징을 융합하는 공동 임베딩 공간을 구상한다.
비디오 클립과 연관된 동사를 공통 임베딩 공간으로 매핑하는 엔드-투-엔드 아키텍처를 개발한다.
제로샷 행동 인식을 가능하게 하고 유추 테스트 및 분포적 의미를 통해 의미 구조를 평가한다.
다중모달 공간에서 동사 임베딩의 의미적 풍부함을 정량화하는 평가 방법을 제안한다.

제안 방법

자체 주의 메커니즘이 있는 계층적 순환신경망(HRNN)을 사용하여 비디오 특징을 벡터로 인코딩한다.
코사인 기반 쌍 랭킹 손실과 교차 엔트로피 분류 손실의 두 손실을 결합하여 이중 손실로 만든다.
비디오 특징을 C3D로 표현하고 500 차원으로 축소한 다음 두 계층 HRNN(LSTM 1 및 LSTM 2)으로 처리하여 Word2Vec 동사 임베딩에 맞춘 300차원 투영으로 끝난다.
특징 입력과 LSTMs 사이에서 소프트 어텐션을 도입하여 시간적 구조를 포착한다.
하드 네거티브 마이닝과 Adam 최적화를 사용하여 학습하고, 손실의 균형을 맞추기 위해 람다 스케일링을 한다.
기존 Word2Vec 동사에 클래스 이름을 주석처럼 매핑하고 다단어 클래스 이름의 임베딩을 평균화한다.

실험 결과

연구 질문

RQ1액션의 동영상-텍스트 공동 임베딩이 표준 데이터셋에서 정확한 제로샷 인식을 지원할 수 있는가?
RQ2동사를 공유하지만 명사가 다른 액션 간의 의미적 유사성을 Action2Vec가 보존하는가?
RQ3Action2Vec 공간에서 벡터 산술 연산이 일관된 새로운 액션 서술어를 산출하는가?
RQ4동사에 대해 WordNet과 Word2Vec에서의 분포적 의미론과 Action2Vec 임베딩의 정합성은 어느 정도인가?

주요 결과

Action2Vec는 보고된 분할에서 HMDB51, UCF101, Kinetics에서 제로샷 행동 인식의 최첨단 성능을 달성한다.
임베딩 공간은 시각적으로 유사한 행동들을 의미적으로 군집화하여 교차모달 공간에서 지역성을 보인다.
WordNet 기반 혼동 행렬은 Word2Vec와 가장 높은 상관을 보이며, Action2Vec는 데이터셋 전반에서 의미 구조를 Word2Vec에 가깝게 따른다.
Vector 산술은 의미 있는 비유를 보여 주며 행동에 대한 분포적 의미론 특성을 뒷받침한다.
특성 제거 연구에서 이중 손실과 소프트 어텐션이 없을 경우보다 ZSL 성능을 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.