[論文レビュー] DeepASMR: LLM-Based Zero-Shot ASMR Speech Generation for Anyone of Any Voice
DeepASMRはLLMベースのコンテンツ-スタイルエンコーダとフローマッチング音響デコーダを使用して、最小限の通常話データから任意の話者のASMR音声を合成するゼロショットASMR音声生成フレームワークを提供し、さらに大規模な二言語ASMRコーパスDeepASMR-DBを提供します。
While modern Text-to-Speech (TTS) systems achieve high fidelity for read-style speech, they struggle to generate Autonomous Sensory Meridian Response (ASMR), a specialized, low-intensity speech style essential for relaxation. The inherent challenges include ASMR's subtle, often unvoiced characteristics and the demand for zero-shot speaker adaptation. In this paper, we introduce DeepASMR, the first framework designed for zero-shot ASMR generation. We demonstrate that a single short snippet of a speaker's ordinary, read-style speech is sufficient to synthesize high-fidelity ASMR in their voice, eliminating the need for whispered training data from the target speaker. Methodologically, we first identify that discrete speech tokens provide a soft factorization of ASMR style from speaker timbre. Leveraging this insight, we propose a two-stage pipeline incorporating a Large Language Model (LLM) for content-style encoding and a flow-matching acoustic decoder for timbre reconstruction. Furthermore, we contribute DeepASMR-DB, a comprehensive 670-hour English-Chinese multi-speaker ASMR speech corpus, and introduce a novel evaluation protocol integrating objective metrics, human listening tests, LLM-based scoring and unvoiced speech analysis. Extensive experiments confirm that DeepASMR achieves state-of-the-art naturalness and style fidelity in ASMR generation for anyone of any voice, while maintaining competitive performance on normal speech synthesis.
研究の動機と目的
- TTSシステムにおける中立/読む音声を超える高感情ASMR音声生成のギャップを埋める。
- 任意の話者について、その通常の話しサンプルのみを用いてゼロショットASMR合成を実現する。
- ASMRスタイルと話者の音色を分離するトークンレベルの因子化を探る。
- 大規模なASMRコーパス(DeepASMR-DB)と、客観的・主観的・LLMベースの指標を組み合わせた堅牢な評価プロtocolを提供する。
提案手法
- 大規模言語モデル(LLM)ベースのText-to-Semanticエンコーダとフローマッチング音響デコーダを用いた二段階パイプラインを採用する。
- 離散音声トークン(S3)をASMRスタイルと音色のソフトな因子分解として用い、話者アイデンティティのリークを抑えつつスタイル操作を可能にする。
- テキストとプロンプトから離散トークン列を予測するようLLMを訓練し、クロスエントロピー損失で最適化する。
- トークン列と対象話者の音色を条件にしたConditional Flow Matchingネットワークでトークンをメルスペクトログラムにデコードし、その後HiFi-GANボコーディングを適用する。
- スタイルプロンプトを選択するタスクプロンプトセレクターを仮想話者プールと共に実装し、クロススタイル合成時の音色リークを低減する。
- 生成されたASMRプロンプトをシステムへ2〜3回追加パスとして戻し、出力を反復的に精練することも可能。
実験結果
リサーチクエスチョン
- RQ1未知の話者に対してトークン空間でASMRスタイルを話者音色と分離できるか(ゼロショットASMRの実現性)。
- RQ2二段階のLLM+フローアーキテクチャは、話者アイデンティティを保持しつつASMRスタイルを制御するのに有効か。
- RQ3ゼロショットNormal-to-ASMR合成は、スタイル内またはカスケードベースラインと比較してどの程度良く機能するか。
- RQ4生成音声のASMR品質と無声化(unvoiced)発声を捉えるデータセットと評価プロトコルは何が最も適切か。
主な発見
- DeepASMRは、未知の声に対して言語を跨いだゼロショット合成において自然さとASMRスタイル忠実度で最先端を達成。
- トークンレベルの解析により、ASMRスタイルは主にセマンティックトークンにエンコードされ、残りの音色はフロー型デコーダで回収可能であることが示唆される。
- 仮想話者プールと類似度ベースのタスクリ prompt 取得は音色リークを緩和し、クロススタイル合成の品質を向上させる。
- 無声話声生成(ASMR)はN2Aタスクにおいて堅牢に実現可能で、可読性(WER/CER)と音色保持(SIM)で競争力を持つ。
- 客観指標、主観的MOS、LLMベースのスタイルスコアリング、無声話声分析を組み合わせた広範な評価プロトコルは、ASMR品質の総合的な評価をサポートする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。