Skip to main content
QUICK REVIEW

[論文レビュー] Feature extraction with mel scale separation method on noise audio recordings

Roy Rudolf Huizen, Florentina Tatrin Kurniati|arXiv (Cornell University)|Dec 30, 2021
Speech and Audio Processing参考文献 28被引用数 6
ひとこと要約

本論文は、騒音の強い音声記録における特徴抽出の正確性を向上させるために、メルスケール分離手法(MFCCデュアルチャネル)を提案する。従来のMFCCシングルチャネルと比較し、メルスケール周波数帯域を抽出する前に、低域(≤1 kHz)と高域(1–4 kHz)に分割し、それに適応的ノイズキャンセリング(ANC)を組み合わせることで、-16 dB SNRで76.25%の正確性を達成した。これはシングルチャネルの47.5%よりも顕著に高い結果であり、ノイズに対する耐性が向上していることを示している。

ABSTRACT

This paper focuses on improving the accuracy of noise audio recordings. High-quality audio recording, extraction using the mel frequency cepstral coefficients (MFCC) method produces high accuracy. While the low-quality is because of noise, the accuracy is low. Improved accuracy by investigating the effect of bandwidth on the mel scale. The proposed improvement uses the mel scale separation methods into two frequency channels (MFCC dual channel). For the comparison method using the mel scale bandwidth without separation (MFCC single-channel). Feature analysis using k-mean clustering. The data uses a noise variance of up to -16 dB. Testing on the MFCC single channel method for -16 dB noise has an accuracy of 47.5%, while the MFCC dual-channel method has an accuracy better of 76.25%. The next test used adaptive noise-canceling (ANC) to reduce noise before extraction. The result is that the MFCC single-channel method has an accuracy of 82.5% and the MFCC dual-channel method has an accuracy better of 83.75%. High-quality audio recording testing for the MFCC single-channel method has an accuracy of 92.5% and the MFCC dual-channel method has an accuracy better of 97.5%. The test results show the effect of mel scale bandwidth to increase accuracy. The MFCC dual-channel method has higher accuracy.

研究の動機と目的

  • 低品質で騒音の強い音声記録における話者識別正確性の向上を目的とする。
  • メルスケール帯域幅の分割が特徴抽出性能に与える影響を調査することを目的とする。
  • 標準MFCCシングルチャネルと比較して、メルスケール分離による2周波数チャネル(MFCCデュアルチャネル)の有効性を評価することを目的とする。
  • メルスケール分離と適応的ノイズキャンセリング(ANC)の併用効果が分類正確性に与える影響を評価することを目的とする。
  • 合成された騒音付き音声データを用いて、k-meansクラスタリングと定量的正確性指標による手法の妥当性を検証することを目的とする。

提案手法

  • メルスケール周波数応答を0–1 kHz(ローパス)と1–4 kHz(バンドパス)の2バンドに分割することで、MFCCデュアルチャネル手法を提案する。
  • 理想的なsincベースのインパルス応答に基づくローパスおよびバンドパスフィルタを用いて周波数成分を分離する。
  • 最小平均二乗(LMS)アルゴリズムを用いて適応的ノイズキャンセリング(ANC)を実装し、ノイズの参照入力と繰り返しの重み更新により平均二乗誤差を最小化する。
  • 各フィルタードバンドに対して、標準的なMFCC抽出手順(事前増幅、フレーミング、ウィンドウ処理、FFT、メルフィルターバンク、対数エネルギー、DCT)を別々に適用する。
  • 抽出された特徴量に対してk-meansクラスタリングを実行し、テスト音声とリファレンス音声サンプル間の類似性を評価する。
  • 正例(TP)、真陰性(TN)、偽陽性(FP)、偽陰性(FN)の割合を用いて正確性を算出する。

実験結果

リサーチクエスチョン

  • RQ1メルスケールを2つの周波数帯に分割することで、騒音のある音声におけるMFCCベースの特徴抽出正確性が向上するか?
  • RQ2さまざまなノイズレベル下で、MFCCデュアルチャネル手法は標準MFCCシングルチャネル手法と比べてどのように異なるか?
  • RQ3メルスケール分離と適応的ノイズキャンセリング(ANC)を組み合わせることで、分類正確性はどの程度向上するか?
  • RQ4さまざまな信号対雑音比(SNR)において、デュアルチャネル手法の性能はどのように変化するか?
  • RQ5ノイズによる劣化下でも、デュアルチャネルアプローチは話者固有の特徴をよりよく保持できるか?

主な発見

  • -16 dB SNRでANCを適用しない状態では、MFCCデュアルチャネル手法が76.25%の正確性を達成したのに対し、MFCCシングルチャネル手法は47.5%にとどまった。
  • ANCを適用した場合、MFCCシングルチャネル手法は82.5%の正確性を示したが、デュアルチャネル手法は-16 dB SNRで83.75%の正確性を達成した。
  • 高品質(ノイズなし)の記録では、MFCCデュアルチャネル手法が97.5%の正確性を示し、シングルチャネル手法の92.5%を上回った。
  • MFCCデュアルチャネル手法はノイズに対して優れた耐性を示し、k-meansクラスタリングにおいてテストサンプルとリファレンスサンプル間のクラスターセンタ類似度を高い水準で維持した。
  • メルスケール分離とANCの組み合わせは正確性を顕著に向上させ、デュアルチャネル手法はあらゆるノイズ条件下で最高の性能を示した。
  • 結果から、メルスケール帯域幅の分割が、特に人間の聴覚認識に適合する形で特徴表現を強化することを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。