QUICK REVIEW

[論文レビュー] Should We Always Separate?: Switching Between Enhanced and Observed Signals for Overlapping Speech Recognition

Hiroshi Satō, Tsubasa Ochiai|arXiv (Cornell University)|Jun 2, 2021

Speech and Audio Processing参考文献 31被引用数 15

ひとこと要約

本論文は、推定された信号対干渉比（SIR）および信号対雑音比（SNR）を用いて、観測された音声混合信号と強調された音声の間でルールベースのスイッチング機構を提案する。この手法により、強調処理に起因するアーティファクトによるASR性能の低下を回避し、特に高SIRおよび低SNR条件下で、CERの相対的低減が最大27%達成された。

ABSTRACT

Although recent advances in deep learning technology improved automatic speech recognition (ASR), it remains difficult to recognize speech when it overlaps other people's voices. Speech separation or extraction is often used as a front-end to ASR to handle such overlapping speech. However, deep neural network-based speech enhancement can generate `processing artifacts' as a side effect of the enhancement, which degrades ASR performance. For example, it is well known that single-channel noise reduction for non-speech noise (non-overlapping speech) often does not improve ASR. Likewise, the processing artifacts may also be detrimental to ASR in some conditions when processing overlapping speech with a separation/extraction method, although it is usually believed that separation/extraction improves ASR. In order to answer the question `Do we always have to separate/extract speech from mixtures?', we analyze ASR performance on observed and enhanced speech at various noise and interference conditions, and show that speech enhancement degrades ASR under some conditions even for overlapping speech. Based on these findings, we propose a simple switching algorithm between observed and enhanced speech based on the estimated signal-to-interference ratio and signal-to-noise ratio. We demonstrated experimentally that such a simple switching mechanism can improve recognition performance when processing artifacts are detrimental to ASR.

研究の動機と目的

重なり合う音声状況において、音声強調が常にASR性能を向上させるかどうかを調査すること。
処理アーティファクトの影響により、観測混合信号が強調音声を上回る状況を特定すること。
SIRおよびSNRの推定値に基づき、最適な入力（観測または強調）を選択するシンプルなルールベースのスイッチング機構を開発すること。
ASRモデルの変更や共同学習を必要とせずに、スイッチングがASR性能を向上させられることを実証すること。

提案手法

本手法は、単一チャネルの目的音声抽出モデルの出力である観測混合信号と強調音声の両方に対してASR性能を評価する。
推定されたSIRおよびSNRを用いて、観測混合信号にスイッチするか、強調信号を保持するかを決定する。
開発セットの性能を実験的に分析した結果、SIR − SNR ≥ 10 dB の場合に観測混合信号を選択するというスイッチングルールを定義する。
標準的なASRパイプラインを採用し、ESPnetのCSJレシピを用い、速度変更とSpecAugmentを用いてデータ拡張を実施する。
スイッチング機構はASR推論の入力段階に適用され、ASRモデルや学習プロセスを変更しない。
本手法は、さまざまな雑音タイプ（カフェ、歩行者、通り、バス）およびSIR/SNRの組み合わせを含む完全に重なったデータセットで評価される。

実験結果

リサーチクエスチョン

RQ1干渉を低減しているにもかかわらず、音声強調がASR性能を低下させるSIRおよびSNRの条件は何か？
RQ2観測音声と強調音声の間でスイッチングすることで、常に強調音声を使用する場合と比較してASR性能が向上するか？
RQ3推定されたSIRおよびSNRに基づくシンプルなルールベースのスイッチング機構は、重なり合う音声認識のASR向上に有効か？
RQ4提案されたスイッチング戦略は、多様な雑音および干渉条件において、観測混合信号および強調音声を個別に使用した場合を上回る性能を示すか？

主な発見

高SIR（20 dB）および低SNR（0 dB）条件下では、音声強調がASR性能を低下させ、CERが観測混合信号と比較して最大57%増加した。
SIR 10 dBおよびSNR 0 dBの条件下では、干渉音声が中程度のレベルであっても、音声抽出がASR性能の向上に寄与しなかった。
提案されたスイッチング手法は、高SIR−SNR条件下で強調音声と比較して27%の相対的CER低減を達成した。特にSIR 15 dBおよびSNR 10 dBの条件下で最大の向上が観察された。
SIR−SNR ≥10 dBの条件下では、平均でCERが22%低減され、雑音タイプにかかわらず一貫した向上効果が示された。
スイッチングが最適でない場合でも、CERの増加が≤1%に留まり、SIRおよびSNRの推定誤差に対してもロバストであることが示された。
結果から、非線形処理に起因するアーティファクトが干渉低減効果を上回る場合には、ASRシステム自体が強調ベースのフロントエンドを上回る可能性があると示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。