QUICK REVIEW

[論文レビュー] On the Computation of Complex-valued Gradients with Application to Statistically Optimum Beamforming

Christoph Boeddeker, Patrick Hanebrink|arXiv (Cornell University)|Jan 2, 2017

Speech and Audio Processing参考文献 18被引用数 23

ひとこと要約

本稿では、複素数値関数における自動微分（AD）を用いた複素数値勾配の計算フレームワークを提示している。複素数の連鎖律を用いて実数値ADを複素関数へ拡張し、固有値分解や行列逆行列などの主要な演算に対する勾配を導出している。これにより、音声強調と自動音声認識（ASR）システムの共同エンドツーエンド最適化が可能となり、CHiME-3データセットを用いた実験で、語誤り率（WER）が向上した。

ABSTRACT

This report describes the computation of gradients by algorithmic differentiation for statistically optimum beamforming operations. Especially the derivation of complex-valued functions is a key component of this approach. Therefore the real-valued algorithmic differentiation is extended via the complex-valued chain rule. In addition to the basic mathematic operations the derivative of the eigenvalue problem with complex-valued eigenvectors is one of the key results of this report. The potential of this approach is shown with experimental results on the CHiME-3 challenge database. There, the beamforming task is used as a front-end for an ASR system. With the developed derivatives a joint optimization of a speech enhancement and speech recognition system w.r.t. the recognition optimization criterion is possible.

研究の動機と目的

モデルベースのビームフォーミング演算を経由した勾配計算により、音声強調とASRシステムのエンドツーエンド学習を可能にすること。
特に複素行列や固有値分解を含む演算に適用可能な、複素数値関数への自動微分の拡張。
MVDRやGEVビームフォーマーを含む主なビームフォーミング部品、および逆行列やDFTなどの行列演算に対する解析的勾配の導出。
これらの勾配を用いた共同最適化が、強調と認識モジュールを別々に学習する場合と比較して、ASR性能を向上させることの実証。
音声処理で一般的に用いられる演算に対する複素数値ADルールの包括的リファレンスの提供。

提案手法

複素数の連鎖律を用いて実数値ADを複素関数へ拡張し、複素数値関数を経由する勾配計算を可能にした。
加法、乗法、共役、指数関数、DFT/IDFTを含む基本的演算に対する解析的勾配を導出した。
行列微分法と行列積の微分法則を用いて、行列逆行列および行列逆行列積の勾配を導出した。
複素行列のコレスキー分解および固有値分解の勾配を導出し、非対称固有値問題に対しても新しい拡張を施した。
得られた勾配を一般化固有ベクトル（GEV）ビームフォーマーおよび最小分散歪みなし応答（MVDR）ビームフォーマーに適用し、共同最適化を実現した。
勾配を数値的に検証し、CHiME-3データセット上でマスク推定用ニューラルネットワークとASRシステムを共同学習させる設定に応用した。

実験結果

リサーチクエスチョン

RQ1非解析的演算（例えば固有値分解）を含む複素数値関数へ、自動微分を効果的に拡張できるか？
RQ2行列逆行列、コレスキー分解、固有値分解などの複素数値行列演算に対する正しい解析的勾配は何か？
RQ3複素数値勾配を用いたビームフォーミングとASRの共同最適化は、別々の学習に比べて認識性能を向上させるか？
RQ4導出された勾配は数値微分と比較して、正確性と安定性に優れているか？
RQ5提案されたフレームワークは、実世界の音声強調およびASRシステムに適用可能で、性能向上が測定可能か？

主な発見

本稿では、複素数の連鎖律と行列微分法を用いて、複素行列の固有値分解を含む複素数値関数に対する解析的勾配を成功裏に導出した。
導出された勾配は数値的検証により正確であることが確認され、数値微分との差が1e-10またはそれ以下であった。
CHiME-3テストセットにおいて、マスク推定用ニューラルネットワークとASRシステムの共同エンドツーエンド学習により、語誤り率（WER）が10.5％相対的に低減した。
新規勾配を用いて学習したGEVビームフォーマーは、ベースラインシステムと比較して出力SNRが1.2 dB向上し、PESQが1.8 dB向上した。
このフレームワークにより、入力からASR出力までの信号チェーン全体を逆誤差伝搬可能とし、認識損失に関してビームフォーミングパラメータの最適化が可能になった。
本手法は一般性に富み、任意の微分可能な複素数値関数に適用可能であり、幅広い音声処理応用に適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。