Skip to main content
QUICK REVIEW

[논문 리뷰] Audiovisual SlowFast Networks for Video Recognition

Fanyi Xiao, Yong Jae Lee|arXiv (Cornell University)|2020. 01. 23.
Music and Audio Processing참고 문헌 86인용 수 158
한 줄 요약

오디오와 느리-빠른(SlowFast) 시각 경로를 여러 계층에서 융합하는 Audiovisual SlowFast(AVSlowFast) 네트워크를 제안하고, DropPathway 및 시청각 동기화를 도입해 비디오 동작 인식 및 자체 감독 시청각 특징을 향상시킨다.

ABSTRACT

We present Audiovisual SlowFast Networks, an architecture for integrated audiovisual perception. AVSlowFast has Slow and Fast visual pathways that are deeply integrated with a Faster Audio pathway to model vision and sound in a unified representation. We fuse audio and visual features at multiple layers, enabling audio to contribute to the formation of hierarchical audiovisual concepts. To overcome training difficulties that arise from different learning dynamics for audio and visual modalities, we introduce DropPathway, which randomly drops the Audio pathway during training as an effective regularization technique. Inspired by prior studies in neuroscience, we perform hierarchical audiovisual synchronization to learn joint audiovisual features. We report state-of-the-art results on six video action classification and detection datasets, perform detailed ablation studies, and show the generalization of AVSlowFast to learn self-supervised audiovisual features. Code will be made available at: https://github.com/facebookresearch/SlowFast.

연구 동기 및 목표

  • 오디오와 시각 스트림의 지연 후 융합을 넘어 통합된 시청각 인식을 촉진한다.
  • 다중 계층 수준에서 오디오를 SlowFast 시각 경로와 융합하는 아키텍처를 개발한다.
  • 오디오와 시각 모달리티 간의 비동기 학습 역학을 학습 전략으로 다룬다.
  • 여러 동작 분류 및 탐지 데이터셋에서 최첨단 성능을 입증한다.
  • 시청각 표현의 자기지도 학습으로의 일반화를 보여준다.

제안 방법

  • SlowFast를 로그멜 스펙트로그램 입력을 처리하는 전용 Audio 경로로 확장한다.
  • 중간 단계에서 Audio를 Slow 및 Fast 시각 경로와 연결하여 계층적 시청각 융합을 도입한다.
  • 훈련 중 무작위로 Audio 경로를 제거하여 공동 학습을 정규화하는 DropPathway를 제안한다.
  • 교차 모달 특징 학습을 위한 보조 과제로 audiovisual synchronization(AVS)을 구현한다.
  • 여러 융합 체계(A→F→S, A→FS, 및 Audiovisual Nonlocal)를 탐색하고 정렬 및 성능에 미치는 영향을 평가한다.
  • 설계 트레이드오프를 이해하기 위해 융합 단계, 측면 연결 및 동기화에 대한 소거실험(ablations)을 제공한다.

실험 결과

연구 질문

  • RQ1오디오 정보를 위계적 시각 표현에 효과적으로 통합하여 동작 인식 및 탐지를 개선할 수 있는가?
  • RQ2어떤 융합 전략과 학습 기법이 오디오와 시각 스트림 간의 학습 역학을 가장 잘 균형 있게 조정하는가?
  • RQ3계층적 시청각 동기화가 자기지도 특징을 포함한 모듈-일반 표현 학습에 도움이 되는가?
  • RQ4SlowFast에 Audio 경로를 추가할 때 계산 비용과 정확도 간의 트레이드오프는 무엇인가?
  • RQ5비주얼 전용 모델과 비교하여 AVSlowFast가 다양한 데이터셋(자가적, 주변 환경 및 표준 벤치마크)에서 어떤 성능을 보이는가?

주요 결과

  • AVSlowFast는 다양한 데이터셋에서 일관되게 SlowFast를 향상시키며, 예를 들어 EPIC-Kitchens에서 오디오가 verb/noun/action의 top-1 정확도를 각각 +2.9/+4.3/+2.3 포인트 향상시키고 20%의 계산으로 제공된다.
  • Kinetics에서 AVSlowFast는 동일 백본 대비 SlowFast보다 더 높은 top-1 정확도를 달성하여, 보통의 계산량(~10–20%)에서 오디오 스트림의 효과를 입증한다.
  • AVA 동작 탐지에서 AVSlowFast는 상대적으로 작은 추가 계산(~2% 전체)에 대한 향상을 제공한다.
  • 계층적 융합(중간 시각 단계에 Audio 통합)은 late fusion보다 우수하며, 다단계 융합은 res3, res4, pool5 연결을 도입할 때 정점에 달한다.
  • DropPathway는 안정적인 공동 학습에 필수적이며, 오디오-시각 학습 속도를 조절하여 일반화를 크게 향상시킨다.
  • 오디오-시각 동기화(AVS)는 교차 모달 표현을 더욱 향상시키고 시청각 자기지도 특징 학습에 이점을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.