Skip to main content
QUICK REVIEW

[論文レビュー] Proceedings of the 18th Sound and Music Computing Conference

Mauro, Davide Andrea, Spagnol, Simone|arXiv (Cornell University)|Jul 1, 2021
Music Technology and Sound Studies被引用数 4
ひとこと要約

本稿では、音声テクスチャ合成のため、1チャネルのマグニチュードスペクトログ램に位相勾配ヒープ統合(PGHI)を適用して生成対抗ネットワーク(GANs)を訓練する手法を提案する。従来の最先端手法であるI-FSpectrogram(マグニチュード+瞬時周波数)表現に比べ、特にピッチのない音やノイズの多い音(ポップやチリップ)において優れた性能を示す一方、ピッチのある楽器音楽の再現ではメモリ使用量を半減させつつ同等の品質を維持する。

ABSTRACT

Proceedings of the SMC2021 - 18th Sound and Music Computing Conference, June 29th-July 1st 2021.<br> smc2021conference.org

研究の動機と目的

  • IFSpectrogram表現がピッチのない音やノイズの多い音声テクスチャの合成に限界を示す問題に対処すること。
  • マグニチュードスペクトログラムからのPGHIベースの位相再構成が、GANを用いた音声合成においてIFSpectrogramを上回る性能を示すかどうかを評価すること。
  • ピッチあり・ピッチなし・動的かつ複雑な音を含む多様な音声テクスチャに適した統一的でメモリ効率の良い表現を開発すること。
  • 複数の信号タイプにわたり、PGHIおよびIFSpectrogramベースのGAN間の主観的および客観的音質を比較すること。

提案手法

  • 2チャネルのIFSpectrogram(マグニチュード+瞬時周波数)ではなく、1チャネルのログマグニチュードスペクトログラムにGANSを訓練する。
  • 時間および周波数方向の位相勾配を活用して、マグニチュードスペクトログラムのみから時間領域信号を再構成するための、位相勾配ヒープ統合(PGHI)アルゴリズムを用いる。
  • GANフレームワーク内に、微分可能で反復処理を要しないPGHIを組み込み、高精細な音声を生成する。
  • 条件付き音声生成を目的とした、GANSynthに類似した段階的成長型GANアーキテクチャを採用する。
  • 聴取テストとFAD指標を用いて、異なるホップサイズ(64および128)における主観的および客観的音質を評価する。
  • 同じデータセットおよびモデルアーキテクチャを用いて、最先端のIFSpectrogramベースのGANと比較する。

実験結果

リサーチクエスチョン

  • RQ1マグニチュードスペクトログラムからのPGHIベースの再構成は、ピッチのないノイズの多い音声テクスチャに対して、IFSpectrogramベースの合成よりも優れた主観的音質を生み出すか?
  • RQ2ピッチのある楽器音の合成において、PGHIの性能はIFSpectrogramと比べてどうか?
  • RQ31チャネルのマグニチュードスペクトログラムにPGHIを適用することで、2チャネルのIFSpectrogramに匹敵するか、それ以上の結果が得られ、かつメモリ使用量を削減できるか?
  • RQ4ホップサイズを小さくしてスペクトログラムの冗長性を高めることで、PGHIの性能がIFSpectrogramに対して向上するか?

主な発見

  • PGHIベースのGANは、ノイズの多いポップやチリップの音声において、IFSpectrogramベースのGANよりも顕著に高い主観的音質を達成し、聴取者による評価でもPGHIが明確に優れているとされた。
  • NSynthデータセットのピッチのある楽器音楽に対しては、PGHIとIFSpectrogramの主観的音質にほとんど差がなく、ピッチ音楽の再現において性能の低下がないことが示された。
  • FAD指標では、PGHIが生成した音声が参照音声に常にIFSpectrogramが生成した音声よりも近づいており、ポップ(ホップサイズ64で0.295)とチリップ(ホップサイズ64で0.747)で最小のFAD値を記録した。
  • ホップサイズ64では、PGHIが非ピッチおよび複雑な信号に対してIFSpectrogramよりも明確な主観的優位性を示したが、ホップサイズ128ではその差が小さかった。これは、より高い冗長性がPGHIのロバストネスを高めることを示唆している。
  • PGHI法は、ピッチ音楽の再現においてIFSpectrogramと同等の音質を達成しながら、入力表現が1チャネルであるため、半分のメモリ使用量で実現した。
  • 本研究では、PGHIを用いたマグニチュードスペクトログラムが、多様な音声テクスチャの合成において、IFSpectrogramよりもよりロバストで汎用性の高い表現であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。