QUICK REVIEW

[論文レビュー] Self-supervised audio representation learning for mobile devices

Marco Tagliasacchi, Beat Gfeller|arXiv (Cornell University)|May 24, 2019

Music and Audio Processing被引用数 27

ひとこと要約

本論文は、モバイルデバイスへのデプロイを想定した自己教師あり音声表現学習手法—Audio2Vec（Word2Vecをインspireしたもの）およびTemporalGap—を提案する。スペクトログ램における時間的文脈を活用することで、ラベルなしデータを用いて汎用的な音声埋め込みを学習する。この手法により、音声・音楽検出などの下流タスクで優れた性能を達成し、完全に教師ありモデルに近い精度にまで到達する一方で、端末内でのフェデレーテッドラーニングによるプライバシー保護型の学習が可能になる。

ABSTRACT

We explore self-supervised models that can be potentially deployed on mobile devices to learn general purpose audio representations. Specifically, we propose methods that exploit the temporal context in the spectrogram domain. One method estimates the temporal gap between two short audio segments extracted at random from the same audio clip. The other methods are inspired by Word2Vec, a popular technique used to learn word embeddings, and aim at reconstructing a temporal spectrogram slice from past and future slices or, alternatively, at reconstructing the context of surrounding slices from the current slice. We focus our evaluation on small encoder architectures, which can be potentially run on mobile devices during both inference (re-using a common learned representation across multiple downstream tasks) and training (capturing the true data distribution without compromising users' privacy when combined with federated learning). We evaluate the quality of the embeddings produced by the self-supervised learning models, and show that they can be re-used for a variety of downstream tasks, and for some tasks even approach the performance of fully supervised models of similar size.

研究の動機と目的

推論および学習の両方において、モバイルデバイスに適した自己教師あり音声表現学習手法の開発。
ラベルなしデータを必要とせずに、スペクトログラム内の時間的文脈を活用して汎用的な音声埋め込みを学習する。
実際のユーザーのデータ分布からの学習により、フェデレーテッドラーニングを用いて端末内でのプライバシー保護型のモデル学習を可能にする。
学習された埋め込みの転移可能性および多様な下流音声タスクにおける性能を評価する。
小さなエンコーダー・アーキテクチャが、モバイルプラットフォーム上で完全に教師ありモデルに近い性能を達成できることを示す。

提案手法

Word2Vecをインspireした自己教師ありタスクであるAudio2Vecを提案。ターゲットのスペクトログラムスライスを過去および未来のコンテキストスライスから再構築する（CBoW）か、逆にそれらからターゲットを予測する（skip-gram）。
同じクリップ内からランダムに抽出した2つの音声セグメント間の時間的距離を推定する対照学習タスクであるTemporalGapを導入。
モバイルデバイスへのデプロイを可能にするために、小規模で効率的なエンコーダー・アーキテクチャを採用。モデルサイズおよびFLOPsを最適化して、端末内での推論および学習の実現可能性を確保。
二段階評価を実施：第一段階では、事前学習済みエンコーダーを固定特徴抽出器として使用。第二段階では、タスク固有の層を追加してエンコーダーを微調整し、転移可能性を評価。
さらに、モデルのモバイルデプロイ最適化のために、知識蒸留およびモデル量子化技術を適用。
音声コマンド認識、言語識別、音楽検出、話者識別など、多様な下流タスクでモデルを評価。

実験結果

リサーチクエスチョン

RQ1スペクトログラム内の時間的文脈に基づく自己教師あり学習手法が、モバイルデバイスへのデプロイに適した汎用的な音声表現を生成できるか？
RQ2小さなエンコーダー・アーキテクチャを用いた場合、Audio2VecおよびTemporalGapが下流音声タスクで完全に教師ありモデルに比べてどの程度の性能を示すか？
RQ3AudioSetのような多様でキュレートされていないデータセットで学習すると、LibriSpeechのような均一性の高いデータセットで学習するよりも、より優れた表現が得られるか？
RQ4これらの自己教師ありモデルを用いて、フェデレーテッドラーニングによる端末内学習をどの程度実現できるか？
RQ5エンコーダーの深層部を微調整することで、完全に教師ありモデルに近い性能を回復できるか、その程度はいかほどか？

主な発見

Audio2Vec（skip-gram）は、より大きなエンコーダーを用いた場合、音声コマンドタスクで0.46の精度、TUT Urban Acoustic Scenes 2018で0.78の精度を達成し、完全に教師ありモデルに近い性能にまで到達した。
TemporalGapは、標準的なエンコーダーを用いた場合、音楽検出（0.97の精度）および話者識別（0.71の精度）で優れた性能を示したが、LibriSpeechで学習した場合、精度が著しく低下した。
AudioSetで学習した場合、LibriSpeechで学習した場合よりも一貫して優れた下流タスク性能が得られ、TemporalGapでは21%の精度低下、Speech CommandsではTripletLossで44%の精度低下が観察された。
Audio2Vec（skip-gram）エンコーダーの最後の2層を微調整することで、完全に教師ありモデルとの精度差の大部分が回復されたが、これらの層は全体のFLOPsの20%にしか過ぎなかった。
エンコーダーのサイズを4倍に増大させることで、すべてのタスクで精度が向上し、Audio2Vec（skip-gram）は言語および話者認識タスクで1.00の精度に達成した。
提案手法により、ラベルなしデータを用いた高品質な表現学習が可能となり、フェデレーテッドラーニングによる端末内学習が可能になり、ユーザーのプライバシーを保護できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。