QUICK REVIEW

[논문 리뷰] Audio Captioning Transformer

Xinhao Mei, Xubo Liu|arXiv (Cornell University)|2021. 07. 21.

Music and Audio Processing참고 문헌 23인용 수 32

한 줄 요약

이 논문은 Audio Captioning Transformer(ACT)을 소개합니다. 이는 오디오 자막 생성을 위한 합성 없이 컨볼루션 없는 Transformer 인코더–디코더로, AudioSet에서 사전 학습되었고 AudioCaps에서 경쟁력 있는 결과를 보였습니다.

ABSTRACT

Audio captioning aims to automatically generate a natural language description of an audio clip. Most captioning models follow an encoder-decoder architecture, where the decoder predicts words based on the audio features extracted by the encoder. Convolutional neural networks (CNNs) and recurrent neural networks (RNNs) are often used as the audio encoder. However, CNNs can be limited in modelling temporal relationships among the time frames in an audio signal, while RNNs can be limited in modelling the long-range dependencies among the time frames. In this paper, we propose an Audio Captioning Transformer (ACT), which is a full Transformer network based on an encoder-decoder architecture and is totally convolution-free. The proposed method has a better ability to model the global information within an audio signal as well as capture temporal relationships between audio events. We evaluate our model on AudioCaps, which is the largest audio captioning dataset publicly available. Our model shows competitive performance compared to other state-of-the-art approaches.

연구 동기 및 목표

합성 없이 순수한 Transformer 인코더–디코더를 적용하여 오디오 자막 생성을 향상시키는 것.
시간 패치에 대한 자기-주의를 사용하여 오디오의 전역적 및 미세한 시간 정보를 모델링합니다.
오디오 태깅 태스크로 AudioSet에서의 사전 학습과 DeiT 초기화를 활용하여 일반화를 향상시킵니다.
AudioCaps에서 ACT를 최첨단 방법과 비교 평가하고 데이터 효율성 및 하이퍼파라미터 영향력을 분석합니다.

제안 방법

로그-멜 스펙트로그램을 비중첩의 시간 패치로 표현하고 이를 글로벌 오디오 정보를 위한 클래스 토큰을 갖는 Transformer 인코더에 임베딩합니다.
레이어 정규화와 잔차 연결을 포함한 다중 헤드 자기-주의 및 피드포워드 계층을 갖춘 표준 Transformer 인코더를 사용합니다.
디코더에서 마스크된 자기-주의와 인코더 출력에 주의를 기울이는 추가 교차-주의 계층을 활용하여 선형+소프트맥스 계층으로 단어 예측을 생성합니다.
일반화된 오디오 패턴을 학습하기 위해 인코더를 AudioSet에서 오디오 태깅 태스크로 사전 학습하며, 태깅 출력을 위한 클래스 토큰을 둡니다.
디코더를 Word2Vec 임베딩으로 초기화하고 깊이와 헤드 수가 다른 세 가지 디코더 변형을 실험합니다.
교차 엔트로피 손실과 교사 강제학습으로 엔드 투 엔드 학습을 수행하고 추론 시 빔 검색(빔 크기 최대 5)을 사용합니다.

실험 결과

연구 질문

RQ1합성 없이 컨벌루션이 없는 Transformer 인코더–디코더(ACT)가 자막 작성에 대해 글로벌하고 시간 정보를 효과적으로 포착합니까?
RQ2대형 오디오 태깅 데이터셋(AudioSet)에서 인코더를 사전 학습하는 것이 자막 작성 성능에 어떤 영향을 줍니까?
RQ3디코더 깊이와 주의 헤드의 수가 자막 품질과 평가 지표에 어떤 영향을 줍니까?
RQ4ACT가 오디오캡스에서 CNN 기반 및 Transformer 기반 기본 방법들과 비교하여 정확도와 효율성 측면에서 어떤 차이를 보입니까?

주요 결과

모델	BLEU 1	BLEU 2	BLEU 3	BLEU 4	ROUGE L	METEOR	CIDEr	SPICE	SPIDEr
ACT_s_DeiT_AudioSet	0.643	0.483	0.352	0.249	0.469	0.218	0.669	0.160	0.415
ACT_m_DeiT_AudioSet	0.653	0.495	0.363	0.259	0.471	0.222	0.663	0.163	0.413
ACT_l_DeiT_AudioSet	0.647	0.488	0.356	0.252	0.468	0.222	0.679	0.160	0.420
ACT_m_scratch	0.567	0.411	0.285	0.191	0.417	0.187	0.501	0.127	0.314
ACT_m_DeiT	0.606	0.445	0.319	0.224	0.445	0.207	0.586	0.147	0.367
RNN+RNN [ 3 ]	0.614	0.446	0.317	0.219	0.450	0.203	0.593	0.144	0.369
CNN+RNN [ 6 ]	0.655	0.476	0.335	0.231	0.467	0.229	0.660	0.168	0.414
CNN+Transformer [ 9 ]	0.641	0.479	0.344	0.236	0.469	0.221	0.693	0.159	0.426
CNN+Transformer_scratch [ 9 ]	0.610	0.461	0.334	0.234	0.455	0.206	0.629	0.144	0.386

ACT는 AudioCaps에서 최첨단 방법들과 비교하여 경쟁력 있는 성능을 달성합니다.
AudioSet에서 인코더를 사전 학습시키면 성능이 크게 향상되며, DeiT 초기화만으로도 상당한 이득이 있습니다.
Transformers 기반 오디오 자막 작성에서 인코더 사전 학습은 중요하며, 사전 학습 없이 학습하면 CNN+Transformer 대비 성능이 떨어집니다.
ACT_m(4개 디코더 계층)은 기계 번역 지표에서 최고를 달성하고, ACT_l은 CIDEr 및 SPIDEr 점수를 개선합니다.
ACT 모델은 CNN+Transformer보다 학습 속도가 빠르며(에포크당 5분 미만) 7분보다 빠릅니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.