QUICK REVIEW

[논문 리뷰] Self-supervised audio representation learning for mobile devices

Marco Tagliasacchi, Beat Gfeller|arXiv (Cornell University)|2019. 05. 24.

Music and Audio Processing인용 수 27

한 줄 요약

이 논문은 모바일 기기에서 배포 가능한 자기지도 학습 음성 표현 학습 방법—Audio2Vec(Word2Vec에 영감을 받음) 및 TemporalGap—을 제안한다. 스펙트로그램 내 시간적 맥락을 활용하여, 레이블이 없는 데이터를 사용함으로써 일반 목적의 음성 임베딩을 학습한다. 이는 음성 및 음악 감지 등의 후행 작업에서 뛰어난 성능을 보이며, 완전히 지도 학습된 모델에 가까운 정확도에 도달한다. 동시에 연합 학습을 통한 기기 내 훈련을 통해 개인정보 보호를 실현한다.

ABSTRACT

We explore self-supervised models that can be potentially deployed on mobile devices to learn general purpose audio representations. Specifically, we propose methods that exploit the temporal context in the spectrogram domain. One method estimates the temporal gap between two short audio segments extracted at random from the same audio clip. The other methods are inspired by Word2Vec, a popular technique used to learn word embeddings, and aim at reconstructing a temporal spectrogram slice from past and future slices or, alternatively, at reconstructing the context of surrounding slices from the current slice. We focus our evaluation on small encoder architectures, which can be potentially run on mobile devices during both inference (re-using a common learned representation across multiple downstream tasks) and training (capturing the true data distribution without compromising users' privacy when combined with federated learning). We evaluate the quality of the embeddings produced by the self-supervised learning models, and show that they can be re-used for a variety of downstream tasks, and for some tasks even approach the performance of fully supervised models of similar size.

연구 동기 및 목표

추론 및 훈련 모두에서 모바일 기기에서 배포 가능한 자기지도 학습 음성 표현 학습 방법을 개발하는 것.
레이블이 없는 데이터를 요구하지 않고도 스펙트로그램의 시간적 맥락을 활용하여 일반 목적의 음성 임베딩을 학습하는 것.
실제 사용자 데이터 분포에서 학습함으로써 연합 학습을 통한 기기 내 개인정보 보호 훈련을 가능하게 하는 것.
학습된 임베딩의 이식성 및 다양한 후행 음성 작업에서의 성능을 평가하는 것.
소형 인코더 아키텍처가 모바일 플랫폼에서 완전히 지도 학습된 모델에 가까운 성능을 달성할 수 있음을 보여주는 것.

제안 방법

Word2Vec에 영감을 받은 자기지도 학습 태스크인 Audio2Vec를 제안한다. 여기서 목표 스펙트로그램 슬라이스는 과거 및 미래의 맥락 슬라이스로부터 재구성되며(CBoW), 또는 그 반대의 방식으로도 수행된다(Skip-gram).
동일한 클립에서 무작위로 샘플된 두 개의 음성 세그먼트 간의 시간적 거리를 추정하는 대조 학습 태스크인 TemporalGap을 도입한다.
기기 내 추론 및 훈련에 적합하기 위해 소형이고 효율적인 인코더 아키텍처를 사용하며, 모델 크기와 FLOPs를 모바일 배포에 최적화한다.
이중 단계 평가를 실시한다. 첫 번째 단계는 사전 훈련된 인코더를 고정된 특징 추출기로 사용하는 것; 두 번째 단계는 인코더를 작업 전용 레이어와 함께 미세조정하여 이식성 평가를 수행하는 것.
기기 내 배포를 추가로 최적화하기 위해 지식 정렬 및 모델 양자화 기법을 적용한다.
음성 명령 인식, 언어 식별, 음악 감지, 화자 식별 등의 다양한 후행 작업에서 모델을 평가한다.

실험 결과

연구 질문

RQ1스펙트로그램의 시간적 맥락에 기반한 자기지도 학습 방법이 모바일 기기에서 배포 가능한 일반 목적의 음성 표현을 생성할 수 있는가?
RQ2소형 인코더 아키텍처를 사용할 때 Audio2Vec와 TemporalGap가 후행 음성 작업에서 완전히 지도 학습된 모델에 비해 얼마나 잘 성능을 내는가?
RQ3AudioSet과 같이 다양하고 정제되지 않은 데이터셋에서 훈련하는 것이 LibriSpeech처럼 균일한 데이터셋에서 훈련하는 것보다 더 나은 표현을 제공하는가?
RQ4이러한 자기지도 학습 모델을 사용해 얼마나 기기 내 훈련을 연합 학습을 통해 구현할 수 있는가?
RQ5인코더의 더 깊은 레이어를 미세조정하는 것이 완전히 지도 학습된 모델에 가까운 성능을 회복하는 데 얼마나 효과적인가?

주요 결과

Audio2Vec(Skip-gram)는 더 큰 인코더를 사용할 경우 음성 명령에서 0.46의 정확도, TUT Urban Acoustic Scenes 2018에서 0.78의 정확도를 기록하여 완전히 지도 학습된 모델에 근접한 성능을 달성했다.
TemporalGap는 표준 인코더를 사용할 경우 음악 감지에서 0.97의 정확도, 화자 식별에서 0.71의 정확도를 기록했지만, LibriSpeech에서 훈련한 경우 정확도가 크게 떨어졌다.
AudioSet에서 훈련한 결과는 LibriSpeech에서 훈련한 결과보다 일관되게 더 높은 후행 작업 성능을 보였으며, TemporalGap의 경우 정확도가 21% 감소했고, Speech Commands에서 TripletLoss의 경우 44% 감소했다.
Audio2Vec(Skip-gram) 인코더의 마지막 두 레이어를 미세조정함으로써 완전히 지도 학습된 모델과의 정확도 격차의 대부분을 회복했으며, 이 레이어들은 총 FLOPs의 20%에 불과했다.
인코더 크기를 4배로 증가시킴으로써 모든 작업에서 정확도가 향상되었으며, Audio2Vec(Skip-gram)는 언어 및 화자 식별 작업에서 1.00의 정확도를 달성했다.
제안된 방법들은 레이블이 없는 데이터 없이도 고품질의 표현 학습을 가능하게 하여, 개인정보 보호를 유지하면서 기기 내 연합 학습을 위한 적합한 조건을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.