QUICK REVIEW

[論文レビュー] Guitar Effects Recognition and Parameter Estimation with Convolutional Neural Networks

Marco Comunità, Dan Stowell|arXiv (Cornell University)|Dec 6, 2020

Music and Audio Processing参考文献 36被引用数 12

ひとこと要約

本論文は、13種類の特定のギタープレイン、ディストーション、ファズエフェクトプラグインを分類し、エレキギターの録音からその制御パラメータ（Gain, Tone）を推定するための畳み込みニューラルネットワーク（CNN）モデルを提案する。モノフォニックおよびポリフォニックのサンプルを含む、離散的または連続的なパrameter設定を持つ250時間にわたる新規データセットを用いて、分類精度が80％を超える結果が得られ、ほとんどの場合で平均絶対誤差（MAE）が0.05未満となった。これは、離散的パラメータデータセットが設計・分析が容易である一方で、連続的パラメータデータセットと同等の性能を達成できることを示している。

ABSTRACT

Despite the popularity of guitar effects, there is very little existing research on classification and parameter estimation of specific plugins or effect units from guitar recordings. In this paper, convolutional neural networks were used for classification and parameter estimation for 13 overdrive, distortion and fuzz guitar effects. A novel dataset of processed electric guitar samples was assembled, with four sub-datasets consisting of monophonic or polyphonic samples and discrete or continuous settings values, for a total of about 250 hours of processed samples. Results were compared for networks trained and tested on the same or on a different sub-dataset. We found that discrete datasets could lead to equally high performance as continuous ones, whilst being easier to design, analyse and modify. Classification accuracy was above 80\%, with confusion matrices reflecting similarities in the effects timbre and circuits design. With parameter values between 0.0 and 1.0, the mean absolute error is in most cases below 0.05, while the root mean square error is below 0.1 in all cases but one.

研究の動機と目的

音声録音から特定のギタープレインプラグインを識別し、そのパラメータを推定できる深層学習モデルの開発。
特に非線形的なオーバードライブ、ディストーション、ファズエフェクトのための、特定のエフェクトユニットの分類とパラメータ推定に関する研究の不足に応えること。
エフェクト認識およびパラメータ推定の性能を、離散的パラメータ設定と連続的パラメータ設定で訓練したモデルと比較すること。
このようなモデルの強固な訓練と評価を可能にするために、大規模かつ多様な処理済みエレキギターサンプルのデータセットを構築すること。
離散的（離散）または連続的（連続）パラメータ設定で訓練したモデルが、反対の設定でテストされた場合の汎化能力を評価すること。

提案手法

IDMT-SMT-Audio-Effectsデータセットからの未処理の録音を用いて、13種類の一般的なギタープラグインエミュレーションで処理した、250時間にわたる処理済みエレキギターサンプルのカスタムデータセットを構築した。
データセットにはモノフォニック（624ノート）およびポリフォニック（420のインターバル／コード）サンプルが含まれており、パラメータ設定は離散的（例：0.0, 0.2, 0.5, 0.8, 1.0）または連続的（[0.0, 1.0] から一様にサンプリング）のいずれかである。
分類およびパラメータ推定の両方のタスクに、1次元畳み込みニューラルネットワーク（CNN）アーキテクチャを用い、エフェクトクラス分類用と制御パラメータ予測用の別々のヘッドを設けた。
モデルは、モノフォニック離散、モノフォニック連続、ポリフォニック離散、ポリフォニック連続の4つのサブデータセットで訓練および評価された。
損失関数には、分類用にカテゴリカル交差エントロピー、パラメータ推定用に平均絶対誤差（MAE）を組み合わせ、制御値を[0.0, 1.0]に正規化した。
汎化性能は、あるサブデータセットで訓練し、別のサブデータセットでテストすることで評価した。これには、クロス設定評価（例：離散で訓練し、連続でテスト）を含めた。

実験結果

リサーチクエスチョン

RQ1深層学習モデルは、音声録音から13種類の特定のギターオーバードライブ、ディストーション、ファズプラグインを正確に分類できるか？
RQ2パラメータ推定におけるモデル性能は、離散的パラメータ設定と連続的パラメータ設定の間でどのように異なるか？
RQ3離散的パラメータ値で訓練したモデルは連続的パラメータ推定にうまく汎化できるか。逆に、連続的パラメータで訓練したモデルは離散的パラメータ推定に汎化できるか？
RQ4ポリフォニック入力とモノフォニック入力の違いは、分類およびパラメータ推定の精度にどのような影響を及えるか？
RQ5モデルの精度、設計の複雑さ、汎化性能の観点から、離散的パラメータ設定と連続的パラメータ設定の間で性能のトレードオフがあるか？

主な発見

すべてのサブデータセットで分類精度が80％を超えた。誤り行列からは、エフェクト間の聴覚的および回路的類似性が反映されていた。
パラメータ推定に関しては、16ケース中12ケースで平均絶対誤差（MAE）が0.05未満であり、1例を除きすべてのケースで平均二乗誤差（RMSE）が0.1未満であった。
最も低い推定誤差は、ポリフォニックサンプルで訓練およびテストした場合に得られ、コードやインターバルの内容がモデル性能を向上させることを示した。
離散的パラメータ設定で訓練したモデルは、連続的パラメータ設定への汎化性能が高く、ほとんどのコントロールでMAEが0.05未満であった。これは、離散的データセットが実用的で実現可能であることを示している。
連続的パラメータ設定で訓練したモデルは、離散的パラメータ設定でテストした場合、特にGain値が0.5未満の領域で高い分散と歪みを示した。これは、低ゲイン領域における補間の難しさを示唆している。
本研究では、離散的パラメータデータセットが連続的パラメータデータセットと同等の性能を達成できることを示しており、設計・制御・分析の観点から利点を有しながら、精度を損なわないことが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。