QUICK REVIEW

[論文レビュー] SLICE: Speech Enhancement via Layer-wise Injection of Conditioning Embeddings

Seokhoon Moon, K. Jung|arXiv (Cornell University)|Mar 5, 2026

Speech and Audio Processing被引用数 0

ひとこと要約

SLICEはマルチタスクWavLMエンコーダを用いた層ごとの timestep 埋め込みを通じて各残差ブロックへ劣化条件付けを注入し、堅牢なマルチ劣化音声強調を実現する。

ABSTRACT

Real-world speech is often corrupted by multiple degradations simultaneously, including additive noise, reverberation, and nonlinear distortion. Diffusion-based enhancement methods perform well on single degradations but struggle with compound corruptions. Prior noise-aware approaches inject conditioning at the input layer only, which can degrade performance below that of an unconditioned model. To address this, we propose injecting degradation conditioning, derived from a pretrained encoder with multi-task heads for noise type, reverberation, and distortion, into the timestep embedding so that it propagates through all residual blocks without architectural changes. In controlled experiments where only the injection method varies, input-level conditioning performs worse than no encoder at all on compound degradations, while layer-wise injection achieves the best results. The method also generalizes to diverse real-world recordings.

研究の動機と目的

現実世界のマルチ劣化環境（ノイズ、残響、歪み）下で堅牢な音声強調を動機づける。
アーキテクチャ変更なしで全ネットワーク層へ伝搬する条件付け戦略を提案する。
条件付けのために事前学習済みエンコーダを活用し、分離可能な劣化表現を生成する。

提案手法

WavLMをベースにした劣化認識エンコーダを用い、固定長の劣化ベクトル h を出力するようSGMSE+を拡張する。
ノイズ分類、残響 T60 回帰、歪み強度の3つの専門ヘッドを多タスクの補助損失とともに使用する。
h を各ブランチ埋め込みに射影し、それらを結合して c_extra を形成し、 timestep 埋め込み e_t に加算して層ごとの条件付けを行う。
c_extra を timestep 埋め込みに注入し、全ての残差ブロックが条件付け情報を受け取るようにする（アーキテクチャ変更なし）。
訓練はスコアマッチング損失と補助損失の組み合わせで行い、訓練中に conditioning ブランチをランダムにドロップすることで classifier-free ガイダンスを適用する。

実験結果

リサーチクエスチョン

RQ1層ごとの条件付けは拡散ベースの音声強調において入力レベルの条件付けより効果的に劣化情報を伝播できるか。
RQ2マルチタスク劣化エンコーダは単一タスクや無エンコーダのベースラインと比べて複合劣化（ノイズ＋残響＋歪み）への堅牢性を向上させるか。
RQ3提案された条件付け方式は実世界の野外録音にどの程度一般化するか。

主な発見

層ごとの条件付けは入力レベルの条件付けやエンコーダなしのベースラインと比べ、マルチ劤化データでの性能を大きく向上させる。
マルチデグレーデーションデータでは、層ごとの注入により ESTOI が 0.80、SI-SDR が 3.7 dB に改善され、他の設定を上回った。
マルチタスク補助損失を持つエンコーダは劣化表現を適切に校正し、ノイズ精度 96.7%、T60 相関 0.981、歪み相関 0.845 を達成した。
ノイズのみデータでは SLICE がベースラインの中で最も高い UTMOS を達成し、知覚品質が高いことを示唆する。
野外実験では実世界データセットで PESQ/ESTOI が競争力を示し、SLICE および no-encoder 変種がプリトレーニング済みのノイズのみベースラインを上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。