QUICK REVIEW

[논문 리뷰] BEATs: Audio Pre-Training with Acoustic Tokenizers

Sanyuan Chen, Yu Wu|arXiv (Cornell University)|2022. 12. 18.

Music and Audio Processing인용 수 40

한 줄 요약

BEATs는 음향 토크나이저와 오디오 SSL 모델을 공동으로 학습하는 반복적 프레임워크를 도입하고, 불연속 레이블 예측을 통해 여러 음향/음성 작업에서 데이터나 파라미터를 과도하게 사용하지 않고도 최첨단 결과를 달성합니다.

ABSTRACT

The massive growth of self-supervised learning (SSL) has been witnessed in language, vision, speech, and audio domains over the past few years. While discrete label prediction is widely adopted for other modalities, the state-of-the-art audio SSL models still employ reconstruction loss for pre-training. Compared with reconstruction loss, semantic-rich discrete label prediction encourages the SSL model to abstract the high-level audio semantics and discard the redundant details as in human perception. However, a semantic-rich acoustic tokenizer for general audio pre-training is usually not straightforward to obtain, due to the continuous property of audio and unavailable phoneme sequences like speech. To tackle this challenge, we propose BEATs, an iterative audio pre-training framework to learn Bidirectional Encoder representation from Audio Transformers, where an acoustic tokenizer and an audio SSL model are optimized by iterations. In the first iteration, we use random projection as the acoustic tokenizer to train an audio SSL model in a mask and label prediction manner. Then, we train an acoustic tokenizer for the next iteration by distilling the semantic knowledge from the pre-trained or fine-tuned audio SSL model. The iteration is repeated with the hope of mutual promotion of the acoustic tokenizer and audio SSL model. The experimental results demonstrate our acoustic tokenizers can generate discrete labels with rich audio semantics and our audio SSL models achieve state-of-the-art results across various audio classification benchmarks, even outperforming previous models that use more training data and model parameters significantly. Specifically, we set a new state-of-the-art mAP 50.6% on AudioSet-2M for audio-only models without using any external data, and 98.1% accuracy on ESC-50. The code and pre-trained models are available at https://aka.ms/beats.

연구 동기 및 목표

일반 음향 SSL에서 고수준 의미를 더 잘 포착하기 위해 이산 레이블 예측을 동기 부여한다.
음향 토크나이저 학습과 오디오 SSL 모델 학습을 교대로 수행하는 반복적 프레임워크를 제안한다.
의미적으로 풍부한 음향 토큰이 다운스트림 음향 이해를 향상시킨다는 것을 보인다.
AudioSet-2M, AudioSet-2M-augmented, 및 ESC-50에서 과도한 데이터나 파라미터 없이 최첨단 성과를 입증한다.

제안 방법

BEATs를 도입한다. 음향 토크나이저와 오디오 Transformer SSL 모델을 결합한 반복적 양방향 프레임워크.
첫 번째 반복에서 무작위 투사 토크나이저를 사용해 마스킹된 레이블 예측을 위한 이산 타깃을 생성한다.
이후 반복에서 SSL 모델(교사)로부터 토크나이저(학생)로 의미 지식을 증류하여 자체 증류 토크나이저를 학습한다.
패치의 75%가 마스킹되고 모델이 마스킹된 토큰에 대한 이산 라벨을 예측하는 Masked Audio Modeling 목표를 채택한다.
핵심 SSL 모델은 상대 위치 임베딩과 DeepNorm이 있는 ViT 기반 인코더로서, 이산 토큰에 대한 75% 마스킹 예측 손실로 학습된다.
인코더 표현 위에 선형 분류기를 두고 다운스트림 작업을 미세조정한다.
AudioSet(AS-2M)에서 3회 사전 학습하고, iter3+에 대해 선택적으로 감독 교사를 사용한다.

실험 결과

연구 질문

RQ1반복적으로 학습된 이산 음향 토큰이 일반 음향 이해를 향상시키는 의미적 풍부성을 제공할 수 있는가?
RQ2음향 토크나이저와 오디오 SSL 모델 간의 상호 개선이 다양한 음향/음성 벤치마크에서 최첨단 결과를 낳는가?
RQ3데이터가 부족한 상황과 풍부한 설정에서 자체 증류 토크나이저가 무작위 투사 토크나이저와 어떻게 비교되는가?
RQ4BEATs 반복 프레임워크에 감독 미세조정을 도입하면 어떤 이득이 생기는가?
RQ5BEATs 프레임워크가 반복 간 다양한 SSL 교사 모델에 대해 견고한가?

주요 결과

모델	파라미터 수	데이터	음향	음성	AS-2M	AS-20K	ESC-50	KS1
BEATs_iter1	90M	AS	47.9	36.0	94.0	98.0	98.3	65.9
BEATs_iter2	90M	AS	48.1	38.3	95.1	97.7	98.3	66.1
BEATs_iter3	90M	AS	48.0	38.3	95.6	97.7	98.3	64.5
BEATs_iter3+	90M	AS	48.6	38.9	98.1	98.1	98.1	65.0

BEATs는 여섯 가지 음향/음성 작업에서 최첨단 결과를 달성하며, 특히 외부 데이터 없이 audio-only 모델에서 ESC-50에서 98.1% 정확도 및 AudioSet-2M에서 50.6 mAP를 달성합니다 (iter3+).
무작위 투사 토크나이저를 사용한 첫 번째 반복에서도 여섯 개 중 다섯 작업에서 이미 많은 기존 방법을 능가하여 재구성보다 이산 레이블 예측의 이점을 강조합니다.
자체 증류 토크나이저를 활용한 반복 학습은 특히 오디오 분류 작업에서 추가 이점을 제공하여 토크나이저가 의미 콘텐츠를 향상시킴을 보여줍니다.
iter3+에서 감독 데이터로의 미세조정은 AS-2M/AS-20K 성능을 더욱 향상시키고 적은 파라미터(90M 대 304M)로 이전 SOTA를 크게 상회합니다.
BEATs 반복은 빠르게 수렴하여 iter3에서 비슷한 성능을 보이고, iter3+에서 감독 교사가 상당한 다운스트림 이득을 제공합니다.
학습된 음향 토큰은 잡음에 강하고 음향 의미와 잘 정렬됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.