[論文レビュー] SUPERSEDED - CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit
本稿では、プロの録音と消費者機器による再録音をペアで含む新しいデータセット DR-VCTK を用いて、低品質な機器録音音声を高精細音声に変換する、SEGANに基づく改善手法を提案する。初期学習段階でクリアな音声ではなく、事前に強化された参照信号を用いることで、モデルは優れた聴取品質と音楽的ノイズの低減を達成し、主観的聴取テストにおいてベースライン手法を上回る性能を発揮する。
## This item has been replaced by the one which can be found at https://doi.org/10.7488/ds/2645 ##' This CSTR VCTK Corpus (Centre for Speech Technology Voice Cloning Toolkit) includes speech data uttered by 109 native speakers of English with various accents. 96kHz versions of the recordings are available at https://doi.org/10.7488/ds/2101. Each speaker reads out about 400 sentences, most of which were selected from a newspaper plus the Rainbow Passage and an elicitation paragraph intended to identify the speaker's accent. The newspaper texts were taken from The Herald (Glasgow), with permission from Herald & Times Group. Each speaker reads a different set of the newspaper sentences, where each set was selected using a greedy algorithm designed to maximise the contextual and phonetic coverage. The Rainbow Passage and elicitation paragraph are the same for all speakers. The Rainbow Passage can be found in the International Dialects of English Archive: (http://web.ku.edu/~idea/readings/rainbow.htm). The elicitation paragraph is identical to the one used for the speech accent archive (http://accent.gmu.edu). The details of the speech accent archive can be found at http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf . All speech data were recorded using an identical recording setup: an omni-directional head-mounted microphone (DPA 4035), 96kHz sampling frequency at 24 bits and in a hemi-anechoic chamber of the University of Edinburgh. All recordings were converted into 16 bits, downsampled to 48 kHz based on STPK, and manually end-pointed. This corpus was recorded for the purpose of building HMM-based text-to-speech synthesis systems, especially for speaker-adaptive HMM-based speech synthesis using average voice models trained on multiple speakers and speaker adaptation technologies. The file was previously available on the CSTR website, and was referenced in the Google DeepMind work on WaveNet: https://arxiv.org/pdf/1609.03499.pdf . Please note while text files containing transcripts of the speech are provided for 108 of the 109 recordings, in the '/txt' folder, the 'p315' text was lost due to a hard disk error.
研究の動機と目的
- スマートフォンやノートパソコンなどの消費者機器で録音された音声が、ノイズ、リバーブ、周波数応答の悪化といった問題を抱えることに対処する。
- 従来の信号処理手法の限界を克服するため、直接的に機器録音音声を高品質音声にマッピングするデータ駆動型でエンドツーエンドの深層学習アプローチを開発する。
- VCTK コーパスから抽出したペアで構成される、高品質録音と機器録音音声の両方を含む新しい並列データセット DR-VCTK を作成し、音声変換の教師あり学習を可能にする。
- クリアな音声ではなく、事前に強化された参照信号を教師信号として用いることで、SEGAN モデルの学習安定性と品質を向上させる、新たな訓練手順を導入する。
- 提案手法の評価を、客観的指標と大規模な主観的 MOS テストを通じて行い、既存手法に比べて優れた聴取品質を示すことを確認する。
提案手法
- 著者らは、CSTR VCTK データセットから派生した、英語のマルチスプリーカー語りのコーパスである DR-VCTK を導入し、スタジオ録音をオフィス環境での消費者機器で再録音することで、現実世界の低品質録音を模擬する。
- 提案手法は、初期学習段階でクリアな音声ではなく、Postfilter と HRNR(高分解能ノイズ低減)技術の組み合わせによって生成された事前強化参照信号を、教師信号として SEGAN モデルに置き換えることで、SEGAN モデルを拡張する。
- この指向性参照学習により、生成器の重み初期化が改善され、特に低SNR条件下でも学習安定性と収束速度が向上する。
- 時間領域でエンドツーエンドに動作する GAN アーキテクチャを採用し、識別器は本物の高品質音声と生成された強化音声を区別することで、聴取品質の向上と過剰に滑らかになる現象(over-smoothing)の低減を促進する。
- 訓練手順では、周波数変換に基づく手法で一般的に見られる位相歪みを避けるために、敵対的損失と知覚的損失を最小化することで、知覚的劣化を低減することに焦点を当てる。
- 本手法は、客観的指標(PESQ、STOI、SSNR、DAU)と、107名の日本語話者を対象とした大規模な主観的 MOS テスト(DR-VCTK およびエディンバラの2つのデータセットで実施)を用いて評価される。
実験結果
リサーチクエスチョン
- RQ1クリアな音声ではなく、事前に強化された参照信号を用いて学習させた場合、GANベースのモデルが低品質な機器録音音声を高精細音声に効果的に変換できるか。
- RQ2初期学習段階で事前強化信号を教師信号として用いることで、SEGAN モデルの学習安定性、収束性、および知覚的品質が向上するか。
- RQ3提案手法は、従来の音声強化パイプライン(例:Postfish + HRNR)および元の SEGAN と比較して、客観的および主観的音声品質において優れているか。
- RQ4提案手法は、従来の手法で一般的な音楽的ノイズアーティファクトをどれほど低減するか。
- RQ5本手法は、高レベルの環境ノイズやリバーブを伴う多様な録音条件下でも頑健であるか。
主な発見
- 提案された SEGAN モデルは、DR-VCTK データセットで平均評価得点(MOS)2.80 を達成し、元の SEGAN(1.14)を著しく上回り、Postfish+HRNR 組み合わせ(2.78)と同等の性能を示した(p値 0.39691 で有意差なし)。
- エディンバラデータセットでは、MOS が 3.44 を記録し、元の SEGAN(3.40)と Postfish+HRNR 組み合わせ(3.29)を上回った(p値 0.00011 で有意差あり)。
- 主観的評価により、本手法が従来の強化手法で一般的な音楽的ノイズアーティファクトを低減していることが確認され、聴取者の評価が向上した。
- 客観的指標では、提案手法が DR-VCTK データセットにおいて PESQ(1.28 対 1.24)、SSNR(-1.72 対 -1.09)、STOI(0.73 対 0.65)の向上を示した。
- ノイズが多い(DR-VCTK)およびノイズが少ない(エディンバラ)の両条件で、モデルは一貫した性能向上を示し、安定性と頑健性を示した。
- 初期学習段階で事前強化参照信号を用いることで、収束が速くなり、知覚的品質が向上した。これは、ガイド付き初期化が GAN の音声強化における学習を改善することを裏付けた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。