QUICK REVIEW

[論文レビュー] RTF-Based Binaural MVDR Beamformer Exploiting an External Microphone in a Diffuse Noise Field

N. Gößling, S. Doclo|arXiv (Cornell University)|Jul 11, 2018

Speech and Audio Processing被引用数 3

ひとこと要約

本稿では、外部マイクロホンを用いて拡散音場における相対伝達関数（RTF）を推定することで、計算効率の高いRTFベースのバイナリカルMVDRビームフォーマーを提案する。ヘッドマウントマイクロホンと外部マイクロホンのノイズ成分間の空間的コherー二ョンをゼロと仮定することで、不偏なRTF推定器が導出され、ノイズ低減とバイナリカルコアの保持が著しく向上する。特に高混浊状態および低SNR条件下でも、オラクル推定器に近い性能を達成する。

ABSTRACT

Besides suppressing all undesired sound sources, an important objective of a binaural noise reduction algorithm for hearing devices is the preservation of the binaural cues, aiming at preserving the spatial perception of the acoustic scene. A well-known binaural noise reduction algorithm is the binaural minimum variance distortionless response beamformer, which can be steered using the relative transfer function (RTF) vector of the desired source, relating the acoustic transfer functions between the desired source and all microphones to a reference microphone. In this paper, we propose a computationally efficient method to estimate the RTF vector in a diffuse noise field, requiring an additional microphone that is spatially separated from the head-mounted microphones. Assuming that the spatial coherence between the noise components in the head-mounted microphone signals and the additional microphone signal is zero, we show that an unbiased estimate of the RTF vector can be obtained. Based on real-world recordings, experimental results for several reverberation times show that the proposed RTF estimator outperforms the widely used RTF estimator based on covariance whitening and a simple biased RTF estimator in terms of noise reduction and binaural cue preservation performance.

研究の動機と目的

聞取装置におけるバイナリカルノイズ低減を改善し、ILDやITDなどの空間的知覚コアを保持すること。
従来の手法が劣化する混浊状態でRTF推定の課題に取り組むこと。
ヘッドマウントマイクロホンと最小限の空間的相関を持つ外部マイクロホンを用いて、計算効率の高いRTF推定器を開発すること。
現実的な条件下で、共分散ホワイトニングおよびバイアス推定器を含む最先端のRTF推定器と比較して性能を評価すること。

提案手法

ヘッドマウントマイクロホンから空間的に分離された外部マイクロホンを用い、ノイズ成分の相関性の低減を活用する。
ヘッドマウントマイクロホンと外部マイクロホン信号のノイズ間の空間的コherー二ョンをゼロと仮定することで、不偏なRTF推定を可能にする。
相互スペクトル行列とノイズ共分散推定値を用いて、空間的コヒーレンスに基づくRTF推定器（SC）を導出する。
忘却係数を用いた時間変動型共分散行列推定により、ノイズと音声パワーのロバストな追跡を実現する。
推定されたRTFベクトルとノイズ共分散を用いてBMVDRビームフォーマーを実装し、干渉を抑制しながらバイナリカルコアを保持する。
実世界の録音を用いて、提案されたSC推定器をバイアス付きRTF推定器、共分散ホワイトニング（CW）、およびオラクルSCopt推定器と比較する。

実験結果

リサーチクエスチョン

RQ1空間的コヒーレンスが無視できる拡散音場において、外部マイクロホンがRTF推定の正確性を向上させ得るか？
RQ2提案された空間的コヒーレンスに基づくRTF推定器は、共分散ホワイトニングおよびバイアス付き推定器よりも優れたノイズ低減とバイナリカルコア保持を達成できるか？
RQ3クリアな音声を外部信号として用いたオラクル推定器と比較して、提案されたRTF推定器の性能はどの程度か？
RQ4混浊時間と入力SNRが、提案されたRTF推定器の性能にどの程度影響を及ぼすか？

主な発見

提案された空間的コヒーレンスに基づくRTF推定器（SC）は、すべての混浊時間と入力SNRにおいて、SNR向上の観点で共分散ホワイトニング（CW）およびバイアス付きRTF推定器を一貫して上回った。
混浊時間が250 ms、500 ms、750 msの各条件下で、SC推定器はCWおよびバイアス付き推定器よりも高い知覚的言語理解重み付きSNR向上を達成した。
バイナリカルコア誤差（ILDおよびITD）は、SC推定器により著しく低減され、特に高混浊状態で顕著であり、オラクルSCopt推定器の性能に近く保たれた。
SC推定器は周波数帯域にわたるバイナリカルコアの一貫性を高め、CWおよびバイアス付き推定器で観察された方向の誤認や拡散音の錯覚といったアーティファクトを低減した。
SC推定器とオラクルSCopt推定器との性能差は最小限に抑えられ、実験的状況におけるゼロ空間的コヒーレンス仮定の妥当性が裏付けられた。
非公式な聴取テストでは、SC推定器を用いた場合、希望音源が点音源として自然に認識され、混浊が低減されたことが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。