[論文レビュー] CosyEdit: Unlocking End-to-End Speech Editing Capability from Zero-Shot Text-to-Speech Models
CosyEditはタスク固有のファインチューニングと最適化推論を用いてゼロショットTTSモデルを適応させ、外部アライメントを必要とせずエンドツーエンドの音声編集を実行します。監修データが限られていてもRealEditベンチマークで高い結果を達成します。
Automatic speech editing aims to modify spoken content based on textual instructions, yet traditional cascade systems suffer from complex preprocessing pipelines and a reliance on explicit external temporal alignment. Addressing these limitations, we propose CosyEdit, an end-to-end speech editing model adapted from CosyVoice through task-specific fine-tuning and an optimized inference procedure, which internalizes speech-text alignment while ensuring high consistency between the speech before and after editing. By fine-tuning on only 250 hours of supervised data from our curated GigaEdit dataset, our 400M-parameter model achieves reliable speech editing performance. Experiments on the RealEdit benchmark indicate that CosyEdit not only outperforms several billion-parameter language model baselines but also matches the performance of state-of-the-art cascade approaches. These results demonstrate that, with task-specific fine-tuning and inference optimization, robust and efficient speech editing capabilities can be unlocked from a zero-shot TTS model, yielding a novel and cost-effective end-to-end solution for high-quality speech editing.
研究の動機と目的
- 複雑な前処理と明示的アライメントを回避するためのエンドツーエンド音声編集を動機付ける。
- ゼロショットTTSモデルの編集機能を解放する事後トレーニング戦略を提案する。
- 既存コーパスから監視付き音声編集データセット(GigaEdit)を作成する。
- 編集に特化した目的でCosyVoiceベースのアーキテクチャをファインチューニングする。
- 250時間のデータを用いつつRealEditで最先端または競合的な性能を実証する。
提案手法
- ターゲットテキストと元の音声を条件とした自己回帰的な音声トークン生成として音声編集を再定式化する。
- CosyVoiceのテキストエンコーダとS3セマンティックトークナイザを保持し、編集用にAR-Large Language Model(AR-LLM)とNARフローモデルを適用する。
- OT-CFMモデルをリファレンス誘導のGOT-CFMで強化し、話者トーンと細かなディテールを改善する(式5–式8)。
- トレーニング時と推論時の条件付けの違いを内部化するためにゼロショットのインコンテキストと1ショットのインコンテキスト手順で訓練する。
- GigaEditをGigaSpeechを監督付き編集タスク(挿入、削除、置換、複数編集バリアント)へ変換して構築する。
実験結果
リサーチクエスチョン
- RQ1外部アライメントモジュールなしでゼロショットTTSモデルからエンドツーエンドの音声編集を実現するにはどうすればよいか?
- RQ2編集中に話者トーンと未編集領域を最もよく保持する訓練・推論戦略は何か?
- RQ3小さくキュレーションされた監督付きデータセット(GigaEdit)は大規模なゼロショットTTSバックボーンと競合する編集性能を可能にするか?
- RQ4ARとNARの構成要素は挿入、削除、置換タスクを横断して頑健な編集を実現するためにどのように相互作用するか?
主な発見
| Method | WER (%) ↓ | SpkSIM ↑ | MCD ↓ | MOSNet MAE ↓ | UTMOS MAE ↓ | EMOS ↑ | SMOS ↑ |
|---|---|---|---|---|---|---|---|
| GroundTruth | 6.06 | – | – | – | – | – | – |
| FluentSpeech | 5.97 | 0.9274 | – | 0.78 | 2.81 | 2.7 | 2.6 |
| VoiceCraft | 6.55 | 0.9712 | – | 0.24 | 3.31 | 4.04 | 4.08 |
| SSR-Speech | 5.05 | 0.9831 | – | 0.14 | 3.34 | 4.11 | 4.09 |
| Step-Audio-EditX | 10.76 | 0.9588 | – | 0.61 | 3.89 | 3.41 | 3.49 |
| MiMo-Audio | 16.86 | 0.9371 | – | 0.50 | 3.38 | 3.55 | 3.05 |
| Ming-UniAudio | 9.98 | 0.9670 | – | 0.33 | 3.18 | 3.79 | 3.84 |
| CosyEdit (ours) | 4.50 | 0.9734 | – | 0.29 | 3.30 | 4.15 | 4.04 |
- CosyEditはRealEditでWERとEMOSの点でいくつかのエンドツーエンドベースラインを上回る。
- CosyEditはRealEditで最先端のカスケードシステムの性能に近づく。
- CosyEditはエンドツーエンドモデル間で強い話者類似性とSMOSスコアを達成する。
- 1ショットのインコンテキスト推論は最小のMOS影響でWERを大幅に低減する。
- タスク特化のLLMとフロー訓練は韻律と音響ディテールを改善し、編集精度と品質のバランスを取る。
- CosyEditはMOSを比較的安定させつつMCDや他の忠実度指標を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。