[論文レビュー] End-to-End Multi-Task Learning for Adjustable Joint Noise Reduction and Hearing Loss Compensation
著者らは、推論時に独立して調整可能な量を持つノイズリダクション(NR)と聴力損失補償(HLC)を共同で実行するエンドツーエンドのマルチタスクDNNを提案し、聴力検査(ア audiogram)入力で個別化し、差異可能な聴覚モデルを用いて訓練する。
A multi-task learning framework is proposed for optimizing a single deep neural network (DNN) for joint noise reduction (NR) and hearing loss compensation (HLC). A distinct training objective is defined for each task, and the DNN predicts two time-frequency masks. During inference, the amounts of NR and HLC can be adjusted independently by exponentiating each mask before combining them. In contrast to recent approaches that rely on training an auditory-model emulator to define a differentiable training objective, we propose an auditory model that is inherently differentiable, thus allowing end-to-end optimization. The audiogram is provided as an input to the DNN, thereby enabling listener-specific personalization without the need for retraining. Results show that the proposed approach not only allows adjusting the amounts of NR and HLC individually, but also improves objective metrics compared to optimizing a single training objective. It also outperforms a cascade of two DNNs that were separately trained for NR and HLC, and shows competitive HLC performance compared to a traditional hearing-aid prescription. To the best of our knowledge, this is the first study that uses an auditory model to train a single DNN for both NR and HLC across a wide range of listener profiles.
研究の動機と目的
- NRとHLCを共同で解決する単一のDNNを開発する。
- 推論時にマスクのべき乗を用いてNRとHLCを独立に調整できるようにする。
- retrainingなしでリスナーの聴力検査を取り入れて処理を個別化する。
- エンドツーエンド最適化を可能にする差分可能な聴覚モデルを用いる。
提案手法
- DNNが予測する2つの時-周波数マスクを定義する:1つはNR用、もう1つはHLC用。
- NRとHLCそれぞれに異なる目的を用いて訓練し、不確実性ベースの重み付けスキームでバランスを取る。
- 推論時には、それぞれ独立した alphA_NR と alpha_HLC パラメータでマスクをべき乗して2つのマスクを組み合わせる。
- 入力にはリスナー固有の個別化を可能にする聴力検査を含める。
- 差分可能な聴覚モデルを使用して、NRとHLCの両方に対する生理学的に根拠のある訓練可能なターゲットを提供する。
実験結果
リサーチクエスチョン
- RQ1単一のDNNをエンドツーエンドで訓練して、幅広いHIリスナーに対してNRとHLCの両方を実行できるか。
- RQ2別個の目的を持つマルチタスク訓練は、単一タスクまたはカスケード方式より客観指標を改善するか。
- RQ3NRとHLCを retraining なしで推論時に独立して調整できるか。
- RQ4聴力検査を入力として組み込むことで、リスナーごとの retraining なしで効果的な個別化が可能か。
主な発見
- 提案手法は、推論時にNRとHLCをべき乗したマスクを独立に調整できることを示す。
- 不確実性ベースの重み付けを用いたマルチタスク訓練は、単一目的最適化より客観指標を改善する。
- NR/HLCを同時に扱うDNNはNRとHLCを別々に訓練した2つのDNNのカスケードより優れている。
- 本手法は従来の補聴器処方と比較してHLC性能が競争力を持ち、さまざまな聴力検査結果をもつリスナーに対して機能する。
- 著者らの知る限り、本研究は差分可能な聴覚モデルを用いて、異なるリスナー特性にわたってNRとHLCの双方を1つのDNNで訓練した初の試みである。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。