QUICK REVIEW

[論文レビュー] SwissDial: Parallel Multidialectal Corpus of Spoken Swiss German

Pelin Dogan-Schönberger, Julian Mäder|arXiv (Cornell University)|Mar 21, 2021

Natural Language Processing Techniques被引用数 7

ひとこと要約

SwissDial は、8つの地域方言および標準ドイツ語をカバーする、音声データとテキストデータを併せ持つ、公開済みの最初の並列マルチダイアクトルコロナスイスドイツ語コーパスである。本論文では、ウェブクローリングによるハイデューツク語文の収集、手作業によるダイアクトル翻訳、およびプロフェッショナルな音声録音を経てコーパスを構築したプロセスを詳述し、単一話者、マルチダイアクトル、コードスイッチングの設定を含む高品質なMOSスコアを達成したニューラル音声合成実験を通じてその有効性を検証した。

ABSTRACT

Swiss German is a dialect continuum whose natively acquired dialects significantly differ from the formal variety of the language. These dialects are mostly used for verbal communication and do not have standard orthography. This has led to a lack of annotated datasets, rendering the use of many NLP methods infeasible. In this paper, we introduce the first annotated parallel corpus of spoken Swiss German across 8 major dialects, plus a Standard German reference. Our goal has been to create and to make available a basic dataset for employing data-driven NLP applications in Swiss German. We present our data collection procedure in detail and validate the quality of our corpus by conducting experiments with the recent neural models for speech synthesis.

研究の動機と目的

スイスドイツ語方言における高品質でアノテート済みの低リソースデータセットの不足に対処し、データ駆動型NLPアプリケーションの発展を妨げる要因を解消すること。
8つの主要な方言と標準ドイツ語をカバーする、テキストと音声が整合された標準化された並列コーパスを構築すること。
低リソースの方言環境下でのエンドツーエンドのニューラル音声合成モデルの開発と評価を可能にすること。
体系的に選別された高品質なデータセットを通じて、コードスイッチング、ダイアクトル識別、トランスファー学習に関する研究を支援すること。

提案手法

トピックの多様性と語彙カバレッジを確保するため、ニュース記事やウィキペディアからランダムにハイデューツク語文を収集した。
語彙的変異を特定するため、語彙リストをクローリングし、これらの語を含む文を抽出することで、方言特有の表現を強化した。
各方言地域のネイティブスピーカーを雇い、ハイデューツク語文をそれぞれのスイスドイツ語方言に手作業で翻訳した。
各方言翻訳の音声を、各方言ごとに1名のプロフェッショナルスピーカーが録音し、発声の一貫性を確保するための制御されたセッションを実施した。
後処理：テキスト内の数字表記を正規化し、音声データから不要なノイズを除去し、22.05 kHzにダウンサンプリングした。
文字レベルの入力を用いたニューラル音声合成モデルを訓練・評価し、単一話者、マルチ話者・マルチダイアクトル、コードスイッチング拡張の各設定を含めた。

実験結果

リサーチクエスチョン

RQ1高言語的・高音声品質を備えた、スイスドイツ語の並列でマルチダイアクトルのコーパスを、体系的に構築可能か？
RQ2SwissDialは、低リソースの方言環境下でエンドツーエンドのニューラル音声合成モデルをどれほど効果的に支援できるか？
RQ3SwissDialは、マルチダイアクトルおよびコードスイッチング音声合成モデルの学習にどの程度有効か？
RQ4ハイデューツク語データからのトランスファー学習は、スイスドイツ語方言の音声合成性能を向上させることができるか？

主な発見

単一話者音声合成モデルは、方言ごとに平均評価スコア（MOS）が2.90〜4.12の範囲で達成され、非プロフェッショナルな話者でも自然さと品質が妥当であることが示された。
マルチ話者・マルチダイアクトルモデルは、単一話者モデルと同等の音声品質と自然さを達成しており、方言間で効果的な能力共有が可能であることが示された。
コードスイッチングモデルは、247件の英語・スイスドイツ語混合発話文を微調整した結果、BE方言のサンプルでMOS 3.92 ± 0.58を達成し、言語混合による品質劣化が最小限に抑えられた。
後処理により、背景ノイズが効果的に除去され、音声が標準化され、音声合成実験における信頼性ある利用が可能になった。
コーパスはトランスファー学習を可能にし、ハイデューツク語データでの事前学習が、低リソースのスイスドイツ語方言での微調整性能を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。