QUICK REVIEW

[論文レビュー] Kapre: On-GPU Audio Preprocessing Layers for a Quick Implementation of Deep Neural Network Models with Keras

Keunwoo Choi, Deokjin Joo|arXiv (Cornell University)|Jun 19, 2017

Music and Audio Processing参考文献 4被引用数 57

ひとこと要約

KapreはKerasの層を提供し、オンGPUの音声前処理（メルスペクトログラム、正規化、ノイズ）を実現して、音楽/音声タスクにおける深層学習ワークフローを効率化します。ベンチマークは約20%の追加学習時間を示す一方で、ストレージとプロトタイピングの利点があります。

ABSTRACT

We introduce Kapre, Keras layers for audio and music signal preprocessing. Music research using deep neural networks requires a heavy and tedious preprocessing stage, for which audio processing parameters are often ignored in parameter optimisation. To solve this problem, Kapre implements time-frequency conversions, normalisation, and data augmentation as Keras layers. We report simple benchmark results, showing real-time on-GPU preprocessing adds a reasonable amount of computation.

研究の動機と目的

Keras内でオンGPU音声前処理を動機づけ、音声モデルのプロトタイピングを簡素化・高速化する。
微分可能な時刻-周波数表現と関連前処理（メルスペクトログラム、正規化）を訓練可能なKerasレイヤとして実装する。
大規模モデルのトレーニング時におけるオンGPU音声前処理の計算オーバーヘッドを評価し、トレードオフを理解する。

提案手法

時間-周波数変換をKerasレイヤとして実装する（DFTカーネルで初期化された2D畳み込みによるスペクトログラム）。
スペクトログラムをメルスペクトログラムまで拡張し、訓練可能なメル尺度行列を用意する。
Normalizaton2Dを提供し、周波数、時間、チャネル、データ、バッチごとにデータを正規化する。
メル/対数/線形スケール用に設定可能なフィルタバンクレイヤを含め、ランダム初期化にも対応。
訓練時に適用されるトレーニング可能またはランダム化可能なノイズゲインを持つデータ拡張のAdditiveNoiseを追加。
単純なCNNへの統合をデモンストレーションし、Kapre前処理あり/なしの学習時間をベンチマークする。

実験結果

リサーチクエスチョン

RQ1KapreのオンGPU音声前処理レイヤは、Kerasで音声モデルの迅速かつストレージ効率の高いパイプラインを提供できるか。
RQ2トレーニング時にKapre前処理を組み込むことによる経験的な計算オーバーヘッドはどの程度で、モデルサイズとともにどうスケールするか。

主な発見

KapreはKerasでエンドツーエンドの前処理を可能にし、メルスペクトログラム、正規化、ガウスノイズを訓練可能なレイヤとして含む。
5層のCNN実験では、オンGPU前処理により前処理なしの学習と比べて約20%の学習時間が追加された。
オーバーヘッドを評価するため、30秒のモノラル信号（32 kHz）と小規模なネットワーク（157,336パラメータ）を使用した。
提案手法はプリ計算済みスペクトログラムを回避することで迅速なプロトタイピングと潜在的なストレージ節約を支持する。
Kapreは、より大きなネットワークでも訓練ダイナミクスへの影響を最小限に抑えつつ前処理を統合できることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。