QUICK REVIEW

[논문 리뷰] Naver at ActivityNet Challenge 2019 -- Task B Active Speaker Detection (AVA)

Joon Son Chung|arXiv (Cornell University)|2019. 06. 25.

Speech and Audio Processing참고 문헌 13인용 수 31

한 줄 요약

이 논문은 AVA-ActiveSpeaker 데이터셋에서 활성 화자 검출을 위해 3D-CNN 프론트엔드 특징과 시간적 컨volution 및 LSTM 백엔드를 조합한 앙상블 모델을 제안한다. 자기지도 학습 기반의 시각적·청각적 표현과 시간적 스무딩을 활용함으로써, 테스트 세트에서 mAP 0.878의 성능을 달성하여 기준 GRU 모델(mAP 0.821)을 크게 능가한다.

ABSTRACT

This report describes our submission to the ActivityNet Challenge at CVPR 2019. We use a 3D convolutional neural network (CNN) based front-end and an ensemble of temporal convolution and LSTM classifiers to predict whether a visible person is speaking or not. Our results show significant improvements over the baseline on the AVA-ActiveSpeaker dataset.

연구 동기 및 목표

평균 1.11초의 매우 짧은 발화 세그먼트를 가진 영상에서 활성 화자를 검출하는 데 도전한다.
이전의 비동기 영상 녹화에서 발생하는 청각-시각 동기화 문제의 한계를 극복한다.
정확한 청각-시각 동기화에 의존하지 않는 강건한 활성 화자 검출 시스템을 개발한다.
긴 시간 스무딩 윈도우가 필요한 기존 방법보다 성능을 향상시킨다.
자기지도 사전학습을 활용한 엔드 투 엔드 딥 러닝으로 AVA-ActiveSpeaker 데이터셋에서 최신 기술 수준의 성능을 달성한다.

제안 방법

5프레임 클립(0.2초)을 처리하는 3D-CNN 기반 영상 인코더를 사용하여 512차원의 시각적 특징을 추출한다.
20프레임 스펙트로그램 입력(13개의 페르스터럴 계수)을 대상으로 2D-CNN 기반 청각 인코더를 적용하여 512차원의 청각적 특징을 생성한다.
음성과 시각적 표현을 정렬하기 위해, 레이블이 없는 영상 데이터에서 자기지도 대비 학습을 통해 프론트엔드 인코더를 훈련시킨다.
두 개의 별도 백엔드 분류기를 사용하여 청각 및 시각적 특징을 통합한다: 128개의 은닉 유닛을 가진 양방향 LSTM 네트워크와 이중층 시간적 컨volution 네트워크.
LSTM 및 TC 분류기의 예측을 동일한 가중치로 평균하여 앙상블 처리한다.
0.5초 윈도우를 기반으로 중앙값 또는 위erner 필터를 사용하여 시간적 스무딩을 적용하여 예측 노이즈를 감소시킨다.

실험 결과

연구 질문

RQ1청각-시각 비동기 문제 존재 하에 자기지도 학습 기반의 청각-시각 표현 학습 방식이 활성 화자 검출 성능 향상에 기여하는가?
RQ2짧은 시퀀스 기반 활성 화자 검출에서 시간적 컨volution 네트워크는 LSTM보다 얼마나 효과적인가?
RQ3앙상블 모델링이 AVA-ActiveSpeaker 벤치마크에서 정확도와 강건성 향상에 얼마나 기여하는가?
RQ4시간적 스무딩 기법이 노이즈가 많거나 끊어진 음성 세그먼트에서 검출 성능 향상에 기여하는가?
RQ5정확한 청각-시각 동기화에 의존하는 기존의 대응 기반 모델에 비해 제안된 방법이 우월한가?

주요 결과

위너 스무딩을 적용한 앙상블 모델이 검증용 테스트 세트에서 최고의 mAP 0.878을 기록하여 기준 GRU 모델(mAP 0.821)을 크게 능가했다.
TC 분류기만으로도 검증 세트에서 mAP 0.855를 달성하여 LSTM 분류기(0.851)를 약간 앞서갔다.
LSTM 및 TC 분류기의 앙상블는 mAP 0.861까지 성능 향상을 이끌어내어 서로 다른 시간 모델링 접근 방식을 조합함으로써의 이점이 입증되었다.
0.5초 중앙값 필터를 사용한 시간적 스무딩 적용으로 성능이 mAP 0.874로 향상되었고, 위너 필터링을 추가로 적용함으로써 mAP 0.878까지 향상되었다.
모델은 평균 1.11초의 짧은 발화 세그먼트에서도 강력한 일반화 성능를 보였으며, 더 긴 시간적 맥락이 필요한 기존 방법들을 능가했다.
정확한 청각-시각 동기화에 의존하지 않아도 되기 때문에, 모델은 청각-시각 비동기 문제에 대해 강건함을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.