QUICK REVIEW

[논문 리뷰] Audiovisual transfer learning for audio tagging and sound event detection

Wim Boes, Hugo Van hamme|arXiv (Cornell University)|2021. 06. 09.

Music and Audio Processing참고 문헌 20인용 수 8

한 줄 요약

이 논문은 CRNN 기반 모델에서 사전 훈련된 听覚 및 시각적 특징을 스펙트럼 음향 특징과 융합함으로써 음성 태깅 및 사운드 이벤트 검출을 위한 시각청각 전이 학습을 조사한다. 결과적으로 음성 태깅(최대 83.72% 마이크로 평균 F1)과 굵은 정도의 사운드 이벤트 검출에서 뚜렷한 성능 향상이 나타났지만, 사전 훈련된 모델의 목적과 시간 예측 과제 사이의 불일치로 인해 미세한 정도의 검출에서는 제한적인 향상이 관찰되었다.

ABSTRACT

We study the merit of transfer learning for two sound recognition problems, i.e., audio tagging and sound event detection. Employing feature fusion, we adapt a baseline system utilizing only spectral acoustic inputs to also make use of pretrained auditory and visual features, extracted from networks built for different tasks and trained with external data. We perform experiments with these modified models on an audiovisual multi-label data set, of which the training partition contains a large number of unlabeled samples and a smaller amount of clips with weak annotations, indicating the clip-level presence of 10 sound categories without specifying the temporal boundaries of the active auditory events. For clip-based audio tagging, this transfer learning method grants marked improvements. Addition of the visual modality on top of audio also proves to be advantageous in this context. When it comes to generating transcriptions of audio recordings, the benefit of pretrained features depends on the requested temporal resolution: for coarse-grained sound event detection, their utility remains notable. But when more fine-grained predictions are required, performance gains are strongly reduced due to a mismatch between the problem at hand and the goals of the models from which the pretrained vectors were obtained.

연구 동기 및 목표

사전 훈련된 听각 및 시각적 특징을 활용한 전이 학습의 효과를 음성 태깅 및 사운드 이벤트 검출에 대해 평가하는 것.
약한 레이블이 부여된 데이터에서 다중모달 시각청각 융합이 사운드 인식 과제 성능에 미치는 영향을 조사하는 것.
다양한 수준의 시간 정밀도에서 스펙트럼, 사전 훈련된 听각, 사전 훈련된 시각적 특징 유형의 영향을 분석하는 것.
사전 훈련된 특징이 미세한 정도의 사운드 이벤트 검출에서 성능 제한을 겪는 이유와 그 원인을 규명하는 것.
음성 태깅 및 사운드 이벤트 검출 과제에서 사전 훈련된 특징 유무에 따른 모델 간 종합적 비교를 제공하는 것.

제안 방법

음성 태깅 및 사운드 이벤트 검출 모두에 대해 로그 멜 스펙트로그램 특징을 입력으로 사용하는 CRNN 기반 모델을 훈련한다.
AudioSet에서 음성 인식을 위해 훈련된 모델에서 사전 훈련된 听각 특징을 추출하고, ImageNet에서 이미지 분류를 위해 훈련된 모델에서 시각적 특징을 추출한다.
CNN 인코더 이전의 입력 레이어에서 스펙트럼, 听각, 시각적 특징을 연결하여 특징 융합을 수행한다.
시간 모델링을 위해 이중층 BiGRU를 사용하고, 다중 레이블 프레임 수준 예측을 위해 시그모이드 활성화 함수를 적용한 선형 레이어를 사용한다.
클립 수준의 확률은 선형 풀링을 통해 계산되며, 이진 결정은 고정된 0.5 임계값을 사용한다.
훈련에는 메인 테이처 정규화 기법과 데이터 증강(스펙트로그램 어큐멘테이션, 믹스업)을 적용하고, 20번의 랜덤 초기화를 실시하며 검증 성능에 기반해 모델을 선택한다.

실험 결과

연구 질문

RQ1스펙트럼 특징만을 사용하는 것과 비교해 사전 훈련된 听각 및 시각적 특징을 통합함으로써 음성 태깅 및 사운드 이벤트 검출 성능이 향상되는가?
RQ2음성 및 시각적 특징의 다중모달 융합은 특히 약한 지도 학습 환경에서 인식 성능에 어떤 영향을 미치는가?
RQ3사전 훈련된 특징은 굵은 정도의 사운드 이벤트 검출과 비교해 미세한 정도의 검출 과제에서 얼마나 유익한가?
RQ4왜 사전 훈련된 특징은 미세한 정도의 사운드 이벤트 검출에서 성능 향상의 효과가 점점 줄어드는가? 그리고 이러한 제한성의 주요 요인은 무엇인가?

주요 결과

음성 태깅의 경우, 스펙트럼, 사전 훈련된 听각, 시각적 특징을 융합한 결과 클립 기반 마이크로 평균 F1 스코어가 83.72%에 도달했으며, 이는 스펙트럼 특징 전용 기준 모델 대비 7.50%p의 절대적 향상이다.
사전 훈련된 听각 특징만을 사용해도 음성 태깅 성능이 81.03% F1로 향상되었고, 이는 스펙트럼 전용 기준(76.22%)을 초월하는 것으로, 특징 유형 간 상호보완적 정보가 있음을 시사한다.
시각적 특징만을 사용한 결과 F1 스코어는 61.60%였지만, 听각 특징과 융합한 경우 성능은 80.04%로 상승하여 다중모달 학습의 가치를 입증한다.
군데 정도의 사운드 이벤트 검출(세그먼트 기반 F1)의 경우, 사전 훈련된 특징이 계속해서 성능 향상에 기여했으며, 최고 성능 모델은 76.86% F1을 기록해 스펙트럼 전용 기준 대비 6.77%p 향상되었다.
미세한 정도의 사운드 이벤트 검출(이벤트 기반 F1)의 경우, 사전 훈련된 특징의 성능 향상이 미미하거나 전혀 없었으며, 최고 성능 모델은 단지 32.65% F1을 기록했고, 이는 스펙트럼 전용 기준(33.03%)보다 약간 낮았다.
사전 훈련된 听각 및 시각적 모델에서 시간 모델링이 부족한 것이 미세한 정도 검출에서 성능이 열 劣한 데 기여한 것으로 보이며, 이는 이러한 모델들이 시간 경계 예측 최적화를 위해 훈련되지 않았기 때문이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.