QUICK REVIEW

[논문 리뷰] Marginalized Average Attentional Network for Weakly-Supervised Learning

Yuan Yuan, Yueming Lyu|arXiv (Cornell University)|2019. 05. 21.

Neural Networks and Applications인용 수 62

한 줄 요약

MAAN은 약하게 감독된 시간 액션 로컬라이제이션에서 가장 두드러진 샘플의 지배를 억제하기 위한 주변 평균 집계(MAA)를 도입하여 밀집한 액션 영역의 로컬라이제이션을 개선합니다. 이 프레임워크는 이론적 보장을 갖춘 엔드 투 엔드 학습 가능 프레임워크를 제공하며 빠른 O(T^2) 계산을 특징으로 합니다.

ABSTRACT

In weakly-supervised temporal action localization, previous works have failed to locate dense and integral regions for each entire action due to the overestimation of the most salient regions. To alleviate this issue, we propose a marginalized average attentional network (MAAN) to suppress the dominant response of the most salient regions in a principled manner. The MAAN employs a novel marginalized average aggregation (MAA) module and learns a set of latent discriminative probabilities in an end-to-end fashion. MAA samples multiple subsets from the video snippet features according to a set of latent discriminative probabilities and takes the expectation over all the averaged subset features. Theoretically, we prove that the MAA module with learned latent discriminative probabilities successfully reduces the difference in responses between the most salient regions and the others. Therefore, MAAN is able to generate better class activation sequences and identify dense and integral action regions in the videos. Moreover, we propose a fast algorithm to reduce the complexity of constructing MAA from O($2^T$) to O($T^2$). Extensive experiments on two large-scale video datasets show that our MAAN achieves superior performance on weakly-supervised temporal action localization

연구 동기 및 목표

약하게 감독되는 환경에서 밀집하고 전체적인 액션 영역의 로컬라이제이션을 개선하려는 목표.
가장 두드러진 샘플의 지배를 줄이는 엔드 투 엔드 학습 가능한 집계 메커니즘 개발.
잠재적 판별 가능 확률이 부분 순서를 보존하고 지배적 응답을 억제함을 보이는 이론적 분석 제공.
다항식 복잡도로 주변 집계를 계산하는 빠른 알고리즘 도출.
THUMOS14와 ActivityNet1.3 데이터셋에서 우수한 성능 시연.

제안 방법

잠재 확률 p_t를 통해 부분 집합 특징을 샘플링하고 모든 부분집합에 대한 기댓값을 계산하는 Marginalized Average Aggregation(MAA) 도입.
최종 집계를 E[ ∑ z_i x_i / ∑ z_i ] 형태로 표현하되 z_i ~ Bernoulli(p_i).
부분 순서 보존(주목도 순서를 p_i가 보존)과 지배적 응답 억제(잠재 확률이 응답 간 간격을 줄임) 특성 증명.
일반적인 O(2^T) 열거 대신 O(T^2)의 빠른 반복 알고리즘을 도출하여 집계를 계산.
STPN 집계기를 MAA 및 잠재 판별 확률 p_t로 대체하는 MAAN 아키텍처에 MAA를 통합하고 비디오 레벨 레이블을 사용한 교차 엔트로피 손실로 엔드 투 엔드 학습.
시계열 제안에 대한 클래스 활성화 시퀀스(CAS)를 s^c_t = p_t * sigmoid(w_c^T x_t)로 생성.

실험 결과

연구 질문

RQ1MAA가Weak 감독 하에서 지배적 응답을 억제하고 밀집하고 전체적인 액션 영역을 촉진할 수 있는가?
RQ2MAAN이 기존 집계기와 비교해 표준 벤치마크에서 시계열 액션 로컬라이제이션 정확도를 향상시키는가?
RQ3MAA의 계산 비용은 얼마나 되며 엔드 투 엔드로 효율적으로 학습될 수 있는가?
RQ4잠재적 판별 가능 확률이 일부 영역에 대한 과도한 강조를 줄이면서 샘플의 중요도 순서를 유용하게 보존하는가?
RQ5약한 감독 하에서 THUMOS14 및 ActivityNet1.3 데이터셋에서 MAAN의 성능은 어떠한가?

주요 결과

표 머리말	표 1: THUMOS14(테스트 세트)에서 MAAN 대 기본 집계기의 표
방법	AP@IoU	Cls mAP	0.1	0.2	0.3	0.4	0.5	0.6	0.7	0.8	0.9	STPN	57.4	48.7	40.3	29.5	19.8	11.4	5.8	1.7	0.2	94.2
MAAN	59.8	50.8	41.1	30.6	20.3	12.0	6.9	2.6	0.2	94.1	-	-

MAAN은 THUMOS14에서 IoU 임계값 전반에 걸쳐 기준 집계기보다 일관되게 우수한 성능을 보인다.
MAAN은 STPN 및 기타 베이스라인보다 THUMOS14에서 더 높은 AP@IoU 및 Cls mAP를 달성한다(예: MAAN AP@IoU 59.8, Cls mAP 50.8 at IoU 0.1 등).
정규화 분석에서 MAAN의 이점은 단순 가중치가 아닌 부분 집합에 대한 주변화에서 비롯되며 더 밀집하고 전체적인 액션 구간을 생성한다.
이론적 결과는 잠재 확률이 주의에 대해 부분 순서를 보존하고 가장 두드러진 영역과 다른 영역 사이의 간격을 줄임을 보여준다.
빠른 반복적 O(T^2) 알고리즘으로 MAAN의 실용적 엔드 투 엔드 학습이 가능하다.
THUMOS14에서 MAAN(본 연구)은 IoU 임계값이 증가함에 따라 AP@IoU 값 59.8, 50.8, 41.1, 30.6, 20.3, 12.0, 6.9를 달성했고, Cls mAP는 94.1로 보고된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.