QUICK REVIEW

[論文レビュー] Lombard Speech Synthesis for Any Voice with Controllable Style Embeddings

Seymanur Akti, Alexander Waibel|arXiv (Cornell University)|Jan 19, 2026

Speech Recognition and Synthesis被引用数 0

ひとこと要約

ゼロショット Lombard TTS フレームワークで、PCA駆動のスタイル埋め込みを用い、Lombard性（音量と明瞭さ）を制御可能に調整し、Lombardトレーニングデータなしで任意の話者に適用可能。自然さと話者アイデンティティを維持。

ABSTRACT

The Lombard effect plays a key role in natural communication, particularly in noisy environments or when addressing hearing-impaired listeners. We present a controllable text-to-speech (TTS) system capable of synthesizing Lombard speech for any speaker without requiring explicit Lombard data during training. Our approach leverages style embeddings learned from a large, prosodically diverse dataset and analyzes their correlation with Lombard attributes using principal component analysis (PCA). By shifting the relevant PCA components, we manipulate the style embeddings and incorporate them into our TTS model to generate speech at desired Lombard levels. Evaluations demonstrate that our method preserves naturalness and speaker identity, enhances intelligibility under noise, and provides fine-grained control over prosody, offering a robust solution for controllable Lombard TTS for any speaker.

研究の動機と目的

Lombard専用トレーニングデータなしで Lombard風話者合成を動機付け、実現する。
Lombard関連属性を捉える大規模なプロソディ的スタイル埋め込みを活用する。
生成音声の音量と発音を解釈可能で細かな制御を提供する。
ノイズ環境下で話者アイデンティティの保持と intelligibility を確保する。

提案手法

F5-TTS をベースラインとして採用し、参照音声から固定サイズのスタイル埋め込みを注入する。
ECAPA-TDNN を用いて参照メルスペクトログラムから 1024次元のスタイル特徴を抽出する。
FiLM 条件付けを適用して DiT ブロックをスタイル由来パラメータで変調する。
Lombard および articulation データセットを用いてスタイル埋め込み空間を PCA で分析し、声量（SPL）と明瞭さ（話速/発音）との相関を特定する。
推論時に PCA 成分を移動させ inverse PCA を適用して Lombardness を制御する。
より明瞭な音声のために音節ベースの話速を調整して持続時間制御を組み込む。

実験結果

リサーチクエスチョン

RQ1未 Lombard データで見せない話者に対してゼロショット Lombard 発話を実現できるか？
RQ2スタイル埋め込みは Lombard 属性（音量と明瞭さ）とどう関連し、PCA 指向の操作で解釈可能な制御を提供できるか？
RQ3制御された Lombard 合成は話者アイデンティティを保持し、ノイズ下での intelligibility を言語間で改善できるか？
RQ4明示的な duration 制御が Lombard 合成の知覚的明瞭さと intelligibility に与える影響は何か？

主な発見

Prompt	Model	WER	SSIM	UTMOS
English	F5TTS-Base	2.11	95.90	3.84
English	F5TTS-Style	2.08	89.10	3.53
German	GT	7.04	96.30	3.18
German	F5TTS-Style	2.48	81.50	3.49

F5-TTS Style は英語プロンプトでベースラインと同等の WER を達成し、クロス言語（ドイツ語プロンプト）における intelligibility と自然さでベースラインを上回る。
Lombard性を高める（制御された音量と明瞭さ）とノイズ下での intelligibility が改善され、中程度から高い Lombard レベルでは ground-truth に対するギャップが縮小または上回る。
絶対 SSIM は Lombard レベルを問わず話者アイデンティティの安定的な保持を示し、相対 SSIM の傾向は操られた Lombard性と一致する。
アブレーションでは明瞭さと音量の両方が intelligibility に寄与し、発音抑制時には明瞭さが必須で、ノイズ時には音量が支配的な効果を持つ。
主観的 CMOS は ground-truth が一般により自然だと示唆する一方、TTS は条件間で競合的な intelligibility を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。