QUICK REVIEW

[論文レビュー] JVS corpus: free Japanese multi-speaker voice corpus

Shinnosuke Takamichi, Kentaro Mitsui|arXiv (Cornell University)|Aug 17, 2019

Speech Recognition and Synthesis参考文献 16被引用数 41

ひとこと要約

論文は JVS コーパスを紹介します。これは、4つのサブコーパス（parallel100, nonpara30, whisper10, falsetto10）を含む、四つの部門からなる無料の30時間の日本語多話者音声データセットで、マルチスピーカーおよびマルチスタイルの音声研究を目的としています。

ABSTRACT

Thanks to improvements in machine learning techniques, including deep learning, speech synthesis is becoming a machine learning task. To accelerate speech synthesis research, we are developing Japanese voice corpora reasonably accessible from not only academic institutions but also commercial companies. In 2017, we released the JSUT corpus, which contains 10 hours of reading-style speech uttered by a single speaker, for end-to-end text-to-speech synthesis. For more general use in speech synthesis research, e.g., voice conversion and multi-speaker modeling, in this paper, we construct the JVS corpus, which contains voice data of 100 speakers in three styles (normal, whisper, and falsetto). The corpus contains 30 hours of voice data including 22 hours of parallel normal voices. This paper describes how we designed the corpus and summarizes the specifications. The corpus is available at our project page.

研究の動機と目的

研究開発のための大規模で高品質な日本語多話者音声コーパスを提供し、音声合成、音声変換、マルチスピーカーモデリングの研究開発を支援する。
並行発話と非並行発話を提供し、Voice conversion, speaker factorization, multi-speaker modeling などの多様なタスクをサポートする。
豊富な注釈、ライセンス、簡易なダウンロード形式を通じてアクセス性とドキュメントを確保する。
明確なライセンス条件の下で学術・商用研究の利用をサポートする。

提案手法

各話者あたりの発話数を指定した4つのサブコーパスを設計: parallel100 (100件の parallel normal utterances), nonpara30 (30 non-parallel normal utterances), whisper10 (10 whisper utterances), falsetto10 (10 falsetto utterances).
24 kHz、16-bit RIFF WAV、UTF-8 の転写と音素アライメントを伴う、スタジオで録音された100人の日本語ネイティブ話者の専門家。
自動的に全 context ラベルとモノフォンラベル（Open JTalk）を生成し、音素と対応づけ（Julius）を行い、各話者ごとに手動で注釈されたF0レンジを付加する。
話者類似度マトリクス、持続時間データ、話者ごとの性別とF0レンジ情報などの追加タグを提供する。
学術・商業利用の明確なライセンス条件の下で、研究のためにコーパスを自由に利用できるようにする。
転写、音素アライメント、話者に関連するメタデータを含め、 voice conversion や multi-speaker modeling などのタスクを促進する。

実験結果

リサーチクエスチョン

RQ1JVS コーパスの構造と範囲は何で、どのようにマルチスピーカーおよびマルチスタイル音声研究を支援できるか。
RQ2JVS コーパスの仕様（話者、発話、スタイル、注釈）は何で、データはどのように整理されているか。
RQ3サブコーパスごと、話者ごとにデータはどれくらいあり、録音/注釈パイプラインはどうなっているか。
RQ4JVS コーパスは音声変換、話者モデリング、スタイル適応などの研究タスクをどのように可能にするか。
RQ5JVS コーパスの異なる研究文脈での利用を支えるライセンスとアクセス条件は何か。

主な発見

Sub-corpus	Minimum [min.]	Average [min.]	Maximum [min.]	Total (100 speaker) [hour]
parallel100	10.11 (jvs020)	13.11	18.24 (jvs084)	22
nonpara30	2.12 (jvs099)	2.62	3.86 (jvs036)	4.4
whisper10	0.95 (jvs045)	1.24	1.69 (jvs018)	2.0
falsetto10	0.90 (jvs045)	1.18	1.61 (jvs035)	2.0
Total	-	-	-	30.4

JVS コーパスは 100 名の日本語ネイティブ専門家話者と約 30 時間のデータを、4 つのサブコーパスにわたって構成している。
Parallel100 には話者ごとに 100 発話が含まれ、nonpara30、whisper10、falsetto10 は非並行データとスタイル変化データを追加し、総計 30.4 時間となる。
話者あたりの平均 normal-voice の長さは約 15.7 分、話者ごとに whisper が約 1.24 分、falsetto が約 1.18 分。
話者の F0 範囲は手動で注釈され、対話間のスピーカー間分析のための知覚的話者類似性マトリクスが提供される。
Audio は 24 kHz、16-bit RIFF WAV で、全注釈のための OpenJTalk および Julius ベースのラベリングパイプラインを備える。
コーパスは学術および商業研究のために無料で提供され、プロジェクトページのライセンス条件が商用利用を詳述する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。