QUICK REVIEW

[論文レビュー] Learning to denoise historical music

Yunpeng Li, Marco Tagliasacchi|arXiv (Cornell University)|Oct 11, 2020

Music and Audio Processing被引用数 2

ひとこと要約

本論文では、短時間フーリエ変換（STFT）から得られる複素スペクトログラムを処理する畳み込みニューラルネットワーク（CNN）を用いて、歴史的音楽録音のノイズ除去を実行する音声対音声の生成モデルを提案する。合成データセット（クリアな音楽と古い録音からの実際のノイズを組み合わせたもの）で訓練された本モデルは、音質の保持を図りながら効果的なノイズ除去を達成しており、定量的指標と実際の歴史的録音における人間評価によって検証されている。

ABSTRACT

We propose an audio-to-audio generative model that learns to denoise old music recordings. Our model internally converts its input into a time-frequency representation by means of a short-time Fourier transform (STFT), and processes the resulting complex spectrogram using a convolutional neural network. The network is trained with both reconstruction and adversarial objectives on a synthetic noisy music dataset, which is created by mixing clean music with real noise samples extracted from quiet segments of old recordings. We evaluate our method quantitatively on held-out test examples of the synthetic dataset, and qualitatively by human rating on samples of actual historical recordings. Our results show that the proposed method is effective in removing noise, while preserving the quality and details of the original music.

研究の動機と目的

劣化したノイズと生成アーティファクトによって損なわれた低品質な歴史的音楽録音の修復という課題に対処すること。
元の音楽的コンテンツとトーンの詳細を保持しつつ、効果的にノイズを除去できる生成モデルを開発すること。
古い録音の静かな部分から抽出した実際のノイズを用いて、クリアな音楽と混合させることで、現実的な合成ノイズデータセットを作成すること。
再構成損失と敵対的損失の両方の目的関数を用いて、ノイズ除去出力の知覚的品質を向上させるためのニューラルネットワークを訓練すること。
合成テストセットにおける定量的評価と、人間による評価を通じた実際の歴史的録音におけるモデル性能の評価を行うこと。

提案手法

モデルは、音声入力を短時間フーリエ変換（STFT）を用いて複素スペクトログラムに変換する。
畳み込みニューラルネットワーク（CNN）が複素スペクトログラムを処理し、ノイズ除去の表現を学習する。
ネットワークは二重の目的関数で訓練される：信号の忠実度を保つ再構成損失と、知覚的品質を向上させる敵対的損失。
訓練データセットは、歴史的録音の静かな部分から抽出した実際のノイズとクリアな音楽トラックを混合することで合成的に生成される。
識別的および生成的目的関数を併用して、エンドツーエンドで最適化することで、リアルな出力とノイズ抑制の両方を向上させる。
アーキテクチャは複素数値のスペクトログラムを直接処理できるように設計されており、音声品質に重要な位相と振幅情報を保持する。

実験結果

リサーチクエスチョン

RQ1深層生成モデルは、元の音楽的コンテンツを保持しつつ、歴史的音楽録音のノイズ除去を効果的に行えるか？
RQ2再構成と敵対的訓練を組み合わせることで、ベースライン手法と比較して、ノイズ除去音声の知覚的品質がどのように向上するか？
RQ3歴史的録音の静かな部分から抽出した実際のノイズを用いることで、合成訓練データのリアリズムと有効性がどの程度向上するか？
RQ4訓練中に見られなかった実際の歴史的録音において、モデルの性能は人間の聴取者によってどのように評価されるか？
RQ5ノイズ低減と、ダイナミクスやトーンといった微細な音声ディテールの保持の間には、どのようなトレードオフが生じるか？

主な発見

合成データセットのホールドアウトテスト例において、本モデルは顕著なノイズ低減を達成しており、強力な定量的性能を示している。
実際の歴史的録音における人間評価により、本モデルはベースライン手法と比較して知覚的に優れた結果をもたらすことが確認された。
再構成と敵対的訓練を組み合わせることで、アーティファクトが少なく、より自然な響きのノイズ除去出力が得られた。
静かな部分から抽出した実際のノイズを用いることで、合成訓練データのリアリズムが向上し、実際の歴史的録音への一般化性能が向上した。
ノイズ除去の過程で、ダイナミクス、アーティキュレーション、トーン的特徴といった音楽的ディテールが効果的に保持された。
結果から、本手法が聴き取りにくい歪みや色調の付加を引き起こさずに、歴史的オーディオの修復に有効であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。