QUICK REVIEW

[논문 리뷰] Towards an Unequivocal Representation of Actions

Michael Wray, Davide Moltisanti|arXiv (Cornell University)|2018. 05. 10.

Human Pose and Action Recognition인용 수 2

한 줄 요약

이 논문은 단일 동사 레이블에만 의존하지 않고 '문 열기'와 ' botlle 열기'를 구분할 수 있도록 다중 동사 레이블을 사용하여 동작 인식의 의미 모호성을 해결하는 비등가 동작 표현을 제안한다. 두 개의 스트림 융합 컨volution 네트워크를 사용한 다중 출력 회귀를 통해 세 개의 에고센트릭 데이터셋에서 인식 및 검색 작업 모두에서 단일 동사 기반 베이스라인보다 뛰어난 성능을 달성한다.

ABSTRACT

This work introduces verb-only representations for actions and interactions; the problem of describing similar motions (e.g. 'open door', 'open cupboard'), and distinguish differing ones (e.g. 'open door' vs 'open bottle') using verb-only labels. Current approaches for action recognition neglect legitimate semantic ambiguities and class overlaps between verbs (Fig. 1), relying on the objects to disambiguate interactions. We deviate from single-verb labels and introduce a mapping between observations and multiple verb labels - in order to create an Unequivocal Representation of Actions. The new representation benefits from increased vocabulary and a soft assignment to an enriched space of verb labels. We learn these representations as multi-output regression, using a two-stream fusion CNN. The proposed approach outperforms conventional single-verb labels (also known as majority voting) on three egocentric datasets for both recognition and retrieval.

연구 동기 및 목표

단일 동사 레이블에서 발생하는 의미 모호성, 예를 들어 '열기'라는 동사가 여러 다른 동작에 적용될 수 있는 경우를 해결하기 위해.
유사한 동작를 구분하기 위해 물체에 의존하는 것을 줄이기 위해 동사 수준의 표현을 풍부하게 하기 위해.
다중 동사 레이블에 대한 소프트 할당을 통해 명확한 동작 표현을 생성하기 위해.
더 표현력 있는 동사 공간을 통해 동작 인식 및 검색 성능을 향상시키기 위해.
유사한 동작 간의 미세한 차이를 포착하는 다중 출력 회귀를 통해 표현을 학습하기 위해.

제안 방법

모호성을 해결하기 위해 관측치를 단일 동사 레이블이 아닌 다중 동사 레이블로 매핑하는 방법을 제안한다.
행동 표현을 위해 시각적 및 시간적 특징을 융합하기 위해 두 개의 스트림 컨volution 신경망을 사용한다.
다중 출력 회귀를 사용하여 일련의 동사 레이블에 대한 소프트 할당을 예측한다.
유사한 동작를 구분할 수 있는 공유 표현 공간을 학습하기 위해 모델을 엔드 투 엔드로 훈련한다.
풍부해진 동사 공간을 활용하여 어휘의 표현력과 모호성 제거 능력을 향상시킨다.
학습된 표현을 에고센트릭 데이터셋에서 동작 인식 및 검색 작업에 적용한다.

실험 결과

연구 질문

RQ1동사만으로 모호한 경우에 다중 동사 레이블링이 동작 인식 성능을 향상시킬 수 있는가?
RQ2다수의 동사에 대한 소프트 할당이 유사한 동작를 더 잘 구분하는 데 어떻게 기여하는가?
RQ3다중 출력 회귀를 갖춘 두 개의 스트림 컨볼루션 네트워크가 인식 및 검색에서 단일 동사 기반 베이스라인을 능가하는가?
RQ4물체적 맥락 없이도 동사 중심 표현이 동작의 모호성을 어느 정도 해결할 수 있는가?
RQ5풍부해진 동사 공간은 에고센트릭 동작 데이터셋에서 성능에 어떤 영향을 미치는가?

주요 결과

제안된 방법은 세 개의 에고센트릭 데이터셋 전부에서 기존의 단일 동사 레이블링(다数 투표 방식)보다 동작 인식 성능에서 뛰어나다.
단일 동사 기반 베이스라인 대비 더 뛰어난 검색 성능을 달성하여 더 나은 의미 일치를 나타낸다.
다중 동사 표현은 '문 열기'와 '병 열기'와 같은 유사한 동작 간의 모호성을 효과적으로 해결한다.
두 개의 스트림 융합 컨볼루션 네트워크를 통해 다중 출력 회귀를 통해 미세한 동작 차이를 효과적으로 학습할 수 있다.
이 방법은 인식 및 검색 모두에서 성능 향상을 보이며 더 풍부한 동사 공간의 이점을 입증한다.
결과는 소프트 레이블링과 다중 출력 학습을 통해 동사 중심 표현이 명확하게 만들 수 있음을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.