QUICK REVIEW

[論文レビュー] Singing voice synthesis based on convolutional neural networks

Kazuhiro Nakamura, Kei Hashimoto|arXiv (Cornell University)|Apr 15, 2019

Music and Audio Processing参考文献 24被引用数 27

ひとこと要約

本論文では、入力楽譜特徴を時間的セグメント単位で処理することで、従来のパrameter生成アルゴリズムを必要とせず、歌い声の長時間にわたる依存関係を捉える畳み込みニューラルネットワーク（CNN）ベースの音響モデルを提案する。この手法は、フィードフォワードDNNベースラインと比較して、はるかに自然な合成歌い声を実現し、WaveNet音声生成器を用いることで主観評価のMOSスコアが最大0.6ポイント向上した。

ABSTRACT

The present paper describes a singing voice synthesis based on convolutional neural networks (CNNs). Singing voice synthesis systems based on deep neural networks (DNNs) are currently being proposed and are improving the naturalness of synthesized singing voices. In these systems, the relationship between musical score feature sequences and acoustic feature sequences extracted from singing voices is modeled by DNNs. Then, an acoustic feature sequence of an arbitrary musical score is output in units of frames by the trained DNNs, and a natural trajectory of a singing voice is obtained by using a parameter generation algorithm. As singing voices contain rich expression, a powerful technique to model them accurately is required. In the proposed technique, long-term dependencies of singing voices are modeled by CNNs. An acoustic feature sequence is generated in units of segments that consist of long-term frames, and a natural trajectory is obtained without the parameter generation algorithm. Experimental results in a subjective listening test show that the proposed architecture can synthesize natural sounding singing voices.

研究の動機と目的

表現的な歌い声における長時間の時間的依存関係をモデル化することで、合成歌い声の自然さを向上させること。
従来の音声パラメータ生成アルゴリズムに代わる、滑らかな音響特徴軌跡を直接出力するCNNベースのアーキテクチャを導入すること。
音響モデルにおいて再帰構造を避けることで、高速かつ並列化可能な学習と推論を可能にすること。
CNNがビブラートやタイミングの変動といった表現的歌い声ダイナミクスをどれだけ効果的に捉えられるかを評価すること。
MLSAおよびWaveNet音声生成器を用いて、提案されたCNNベースのシステムとフィードフォワードDNNベースラインを比較すること。

提案手法

楽譜特徴（発音、音名、持続時間など）を入力とし、2000フレームのセグメント単位で音響特徴（メル倒頻スペクトル係数、F0、非周期性、ビブラート）を生成する。
二本のブランチ構造を採用：第一部分は従来のフィードフォワードDNNを模倣し、第二部分は長期間の依存関係をモデル化するための深層残差CNN（9個の残差ブロックを有する）。
感受野を拡大するためにドーナツ型畳み込み（dilated convolutions）を用い、再帰構造を用いずに長距離の時間的パターンをモデル化可能とする。
境界部で100フレームのクロスフェードを適用することで、セグメント間の滑らかな遷移を確保する。
モデルは直接音声生成器（MLSAまたはWaveNet）で使用可能な生の音響特徴を出力するため、MLPGによる動的特徴平滑化処理は不要である。
入力および出力特徴は正規化され、時間遅延およびビブラートパラメータは正弦関数を用いて明示的にモデル化される。

実験結果

リサーチクエスチョン

RQ1再帰構造に依存せず、表現的な歌い声における長期間の依存関係をCNNベースの音響モデルが効果的にモデル化できるか？
RQ2別個のパラメータ生成アルゴリズム（例：MLPG）を不要とすることで、合成歌い声の自然さが向上するか？
RQ3提案されたCNNベースのシステムは、従来のフィードフォワードDNNベースラインと比較して、主観的品質においてどの程度優れているか？
RQ4提案されたフレームワークにおいて、WaveNet音声生成器を用いることで、MLSA音声生成器と比較して合成歌い声の自然さがどの程度向上するか？
RQ5明示的な動的特徴制約を設けずに、提案されたアーキテクチャがセグメント間で滑らかで自然な軌跡を維持できるか？

主な発見

CNNベースのシステム（CNN+W）は、主観聴取テストで平均MOSスコア4.12を達成し、フィードフォワードDNNベースライン（FFNN+W）の3.52を顕著に上回った。
WaveNet音声生成器を用いた場合、MOS評価においてFFNNベースラインと比較して自然さが0.6ポイント向上した。
WaveNet音声生成器を搭載したCNNベースのシステムはMOS4.12を達成し、自然な歌い声に非常に近い主観的品質を示した。
MLSA音声生成器と比較して、両方のシステム（ベースラインおよび提案システム）において、WaveNet音声生成器を用いることでMOSスコアが一貫して向上した。
提案手法はMLPGパラメータ生成アルゴリズムの必要性を効果的に排除したが、同時に軌跡の滑らかさと自然さを維持または向上させた。
ドーナツ型畳み込みを用いた残差CNNアーキテクチャは、歌い声シーケンスにおける長期間の依存関係を効果的に捉え、より表現的で現実的な合成を実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。