[논문 리뷰] Ambient Sound Helps: Audiovisual Crowd Counting in Extreme Conditions
이 논문은 시청각 군중 수를 세는 문제와 대규모 DISCO 벤치마크를 소개하며, 주변 소리가 저조도, 잡음, 가림, 저해상도에서 시각 데이터의 조건을 개선해 군중 수를 더 정확히 계산한다는 점을 보여준다.
Visual crowd counting has been recently studied as a way to enable people counting in crowd scenes from images. Albeit successful, vision-based crowd counting approaches could fail to capture informative features in extreme conditions, e.g., imaging at night and occlusion. In this work, we introduce a novel task of audiovisual crowd counting, in which visual and auditory information are integrated for counting purposes. We collect a large-scale benchmark, named auDiovISual Crowd cOunting (DISCO) dataset, consisting of 1,935 images and the corresponding audio clips, and 170,270 annotated instances. In order to fuse the two modalities, we make use of a linear feature-wise fusion module that carries out an affine transformation on visual and auditory features. Finally, we conduct extensive experiments using the proposed dataset and approach. Experimental results show that introducing auditory information can benefit crowd counting under different illumination, noise, and occlusion conditions. The dataset and code will be released. Code and data have been made available
연구 동기 및 목표
- 다감각 지각에서 영감을 받은 새로운 시청각 군중 수 세기 과제를 제시한다.
- 1,935개의 이미지-오디오 클립과 170,270개의 주석된 머리 인스턴스로 구성된 대규모 DISCO 데이터셋을 만든다.
- 주변 소리를 활용하기 위해 특성별 융합(feature-wise fusion)을 갖춘 시청각 수 세기 모델을 개발한다.
- 조도, 소음, 가림 및 해상도 조건에서 음향 단서가 수 세기에 미치는 영향을 평가한다.
제안 방법
- 시각 특징 추출기로 VGG16의 처음 10개 층을 시각 특징 추출기로 사용한다.
- 오디오를 로그 멜-스펙트로그램과 6층 CNN(VGGish 파생)으로 표현한다.
- 오디오를 통해 평균 풀링과 FC 계층으로부터 얻은 감마와 베타 매개변수를 이용하는 선형의 특징별 융합 블록으로 오디오와 시각 특징을 융합한다.
- 수용 필드를 확장하기 위해 확장된 컨볼루션(dilated convolutions)을 사용하는 6개의 융합 블록을 쌓아 전체 해상도 밀도 맵을 생성한다.
- 예측 밀도 맵과 실제 밀도 맵 사이의 L2 손실로 학습한다.
- AudioCSRNet을 시각 기반 베이스라인(MCNN, CSRNet, SANet, CANNet)과 비교할 때 MAE와 MSE를 사용한다.
실험 결과
연구 질문
- RQ1시각 및 청각 특징을 결합하는 것이 극한 조건에서 비전 전용 모델보다 군중 수를 개선하는가?
- RQ2다른 조도, 소음 및 가림 조건에서 시청각 수 세기 결과가 어떻게 달라지는가?
- RQ3군중 수를 위한 시청각 신호의 효과적이고 계산적으로 효율적인 융합 메커니즘은 무엇인가?
주요 결과
- 저품질 영상(저조도, 잡음, 가림, 저해상도)에서 오디오 보강 모델이 비전 전용 베이스라인보다 일관되게 우수하다.
- AudioCSRNet은 도전적 조건에서 CSRNet보다 더 낮은 MAE와 MSE를 달성하고, 고품질 영상에서도 경쟁력을 유지한다.
- 시각 정보가 없거나 심하게 손상된 경우에도 오디오 정보로 수를 세는 것이 가능하다(조도 실험에서 R=0 같은 경우).
- 공동 시청각 모델은 다양한 조도 및 가림 수준에서 강건함을 보이며, 시각 품질이 악화될수록 성능 차이가 커진다.
- CNN 기반의 오디오 표현(스펙트로그램 기반)이 MFCC+LSTM보다 더 좋은 결과를 내며, AudioCANNet도 저품질 regime에서 CANNet에 이득을 준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.