Skip to main content
QUICK REVIEW

[論文レビュー] HRTF-guided Binaural Target Speaker Extraction with Real-World Validation

Yoav Ellinson, Sharon Gannot|arXiv (Cornell University)|Mar 17, 2026
Speech and Audio Processing被引用数 0
ひとこと要約

この論文は、測定されたHRTFを空間手掛かりとして用い、二耳聴覚キューを保ちながらターゲット話者を抽出するHRTF条件付きバイノーラルターゲット話者抽出フレームワークを提案し、シミュレーションおよび実室録音で検証した。

ABSTRACT

This paper presents a Head-Related Transfer Function (HRTF)-guided framework for binaural Target Speaker Extraction (TSE) from mixtures of concurrent sources. Unlike conventional TSE methods based on Direction of Arrival (DOA) estimation or enrollment signals, which often distort perceived spatial location, the proposed approach leverages the listener's HRTF as an explicit spatial prior. The proposed framework is built upon a multi-channel deep blind source separation backbone, adapted to the binaural TSE setting. It is trained on measured HRTFs from a diverse population, enabling cross-listener generalization rather than subject-specific tuning. By conditioning the extraction on HRTF-derived spatial information, the method preserves binaural cues while enhancing speech quality and intelligibility. The performance of the proposed framework is validated through simulations and real recordings obtained from a head and torso simulator (HATS).

研究の動機と目的

  • リスナー固有のHRTFを、バイノーラルターゲット話者抽出を導く明示的な空間先行情報として活用する。
  • 個々の適合に依存せず、多様な測定HRTFで訓練されたリスナー一般化可能なモデルを開発する。
  • バイノーラルキュー(ILD/ITD)を保持しつつ、音声品質と聴取可能性を向上させる。
  • シミュレーションされた残響混合物および実HATS録音で性能を検証する。
  • HRTFデータベースの離散化による角度ミスマッチに対する頑健性を評価する。

提案手法

  • HRTFから得られるターゲット空間キューを用いて、STFTドメインで2チャンネルの混合物を処理する。
  • 混合物とHRTFキューを共通潜在空間にエンコードし、HRTF条件付き潜在空間変調を適用する。
  • NBC2自己注意ブロックを用いてターゲットのスペクトル成分を抽出し、空間キューを保持する。
  • 複雑なSTFT推定へデコードし、バイノーラル時系列信号を再構成する。
  • SI-SDRとMAE損失で訓練し、微調整時にはSI-SDRを優先する。

実験結果

リサーチクエスチョン

  • RQ1HRTFベースの条件付けは、二耳聴覚環境で頑健かつ空間的に一貫したターゲット話者抽出を提供し得るか。
  • RQ2多様な測定HRTFのセットで訓練することは、個別の主記音調整と比較してリスナー間の一般化を促進するか。
  • RQ3HRTF条件付きTSEはDOAベースの方法と比べて、空間キューの保持と知覚品質においてどの程度優れているか。
  • RQ4実世界の設定でHRTFデータベースの離散化による角度ミスマッチに対して頑健か。
  • RQ5HATSからの実録音における残響環境での手法の性能はどうか。

主な発見

方法SI-SDR i (dB)PESQΔITD (ms)ΔILD (dB)
Mixture1.181.4640.417
DOA-BDE [ 11 ]13.8812.740.9820.479
Proposed15.7703.030.0440.349
  • 提案手法は競合するDOAベース手法よりもSI-SDRiが高い(15.770 dB対13.881 dB)。
  • 提案手法は競合手法よりPESQスコアが高い(3.03対2.74)。
  • 空間キューの保持は、提案手法が優れており、DOA-BDEのΔITDが0.982 msに対して提案が0.044 ms、ΔILDが0.479 dBに対して提案が0.349 dBと示される。
  • シミュレーション混合物において、聴覚・空間的一貫性の指標で優れている。
  • 実世界の録音では、角度ミスマッチ下でも手法は頑健で、基準より知覚品質が向上している。
  • 直接伝搬HRTFを条件付けすることにより、空間的に一貫した抽出が実現され、学習された空間整合フィルタとして機能する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。