Skip to main content
QUICK REVIEW

[論文レビュー] Audio Spectrogram Representations for Processing with Convolutional Neural Networks

Lonce Wyse|arXiv (Cornell University)|Jun 29, 2017
Music and Audio Processing参考文献 6被引用数 135
ひとこと要約

この論文はCNNの音声データ表現をレビューし、生成的音声タスク(スタイル転送など)にはスペクトログラムを焦点に、事前学習済みの画像ネットと音声訓練済みまたはランダムウェイトのネットワークを比較する。

ABSTRACT

One of the decisions that arise when designing a neural network for any application is how the data should be represented in order to be presented to, and possibly generated by, a neural network. For audio, the choice is less obvious than it seems to be for visual images, and a variety of representations have been used for different applications including the raw digitized sample stream, hand-crafted features, machine discovered features, MFCCs and variants that include deltas, and a variety of spectral representations. This paper reviews some of these representations and issues that arise, focusing particularly on spectrograms for generating audio using neural networks for style transfer.

研究の動機と目的

  • 異なる音声表現(例:スペクトログラム、MFCC、生波形)がCNN処理と生成タスクにどのような影響を与えるかを明確にする。
  • 音声スペクトログラムへ画像ベースのスタイル転送を適用する実現可能性を調査する。
  • 音声スタイル転送の結果に対するネットワーク重みの影響を評価する(事前学習済みの画像ネット対ランダム重み)。
  • スペクトログラムへCNNを適用する際のアーキテクチャ上の考慮事項を議論する(チャネル処理と周波数-時間表現を含む)。

提案手法

  • 分類および生成タスクでニューラルネットワークに用いられる既存の音声表現をレビューする。
  • 事前学習済みのVGG-19を用いたスペクトログラムベースのスタイル転送を実験し、スペクトログラム間でスタイルを転送し、別のスペクトログラムのコンテンツを適用する。
  • 画像ネット向けに単一チャネルのスペクトログラムを3チャネルへ複製するなどの実用的な問題と、再度単一チャネルスペクトログラムへ変換する問題に対処する。
  • 周波数ビンをチャネルとして扱うなど、スペクトログラム処理の代替アプローチや、音声用の非画像CNNアーキテクチャを探索する。
  • ESC-50由来のスペクトログラムデータセットと2層CNNを用いた小規模な実験設定を提示し、スタイル転送におけるランダム重みと事前学習済み重みを比較する。

実験結果

リサーチクエスチョン

  • RQ1画像ベースのCNNアーキテクチャ(例:VGG-19)を音声スペクトログラムのスタイル転送に効果的に使用できるか?
  • RQ2ランダム重みのネットワークは、整合的なコンテンツ-スタイル音声転送を生み出す点で事前学習済みネットワークとどう比較されるか?
  • RQ3音声生成タスクへ2D画像CNNを適用するために必要な実用的なアーキテクチャ調整(例:チャネル処理、周波数表現)とは何か?
  • RQ4音声分類の訓練済みネットワークは、ランダム重みのネットワークより統合されたコンテンツ-スタイル合成を提供するか?

主な発見

  • スペクトログラム表現は、従来の手作り特徴量より情報を多く保持し、生の音声より次元が低い。
  • スペクトログラムを用いたスタイル転送は、画像ネットを使って perceptible なスタイルとコンテンツの混合を生み出せるが、音響表現の違いのため視覚的スタイル転送ほど説得力はない。
  • 音声分類の訓練済みネットワークは、ランダム重みネットワークより統合的なコンテンツ-スタイル合成を生み出す。
  • 単一チャネルのスペクトログラムを3つの画像チャネルへ複製し、再び単一チャネルスペクトログラムへ戻すことは、処理上の課題を導入し、品質に影響を与えることがある。
  • 周波数ビンをチャネルとして扱う場合、長い時間スケールのスタイル特徴を捉えるには、かなり多数のチャネルが必要になる可能性がある。
  • ノイズを加えた場合でも、訓練済み重みのネットワークと比較して、純粋なランダム重みのネットワークはスタイル転送を検出しにくい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。