Skip to main content
QUICK REVIEW

[論文レビュー] Multiclass Language Identification using Deep Learning on Spectral Images of Audio Signals

Shauna Revay, Matthew Teschke|arXiv (Cornell University)|May 10, 2019
Speech Recognition and Synthesis参考文献 7被引用数 38
ひとこと要約

本論文は LIFAS を提案する。生の音声から即時に生成される melスペクトログラムを用いて言語を識別する CNN ベースの手法であり、短い 4 秒クリップを用いて、6 言語に対して二値分類で 97% の精度、マルチクラスで 89% の精度を達成する。

ABSTRACT

The first step in any voice recognition software is to determine what language a speaker is using, and ideally this process would be automated. The technique described in this paper, language identification for audio spectrograms (LIFAS), uses spectrograms generated from audio signals as inputs to a convolutional neural network (CNN) to be used for language identification. LIFAS requires minimal pre-processing on the audio signals as the spectrograms are generated during each batch as they are input to the network during training. LIFAS utilizes deep learning tools that are shown to be successful on image processing tasks and applies it to audio signal classification. LIFAS performs binary language classification with an accuracy of 97\%, and multi-class classification with six languages at an accuracy of 89\% on 3.75 second audio clips.

研究の動機と目的

  • 音声アシスタントや文字起こしシステムの一環として自動言語識別の動機づけ。
  • 外部特徴抽出を用いず、生の音声から生成されたスペクトログラム上で動作するエンドツーエンドの CNN ベースパイプラインを提案する。
  • 短い音声セグメントと公開データ VoxForge を用いて6言語で有効性を示す。

提案手法

  • CNN 入力として、生の音声から即時に生成されるスペクトログラム(mel スケール)を使用する。
  • 頑健な特徴学習のため、事前学習済みの ResNet-50 ボディを残差接続付きで採用する。
  • 収束を最適化するため、8エポックで1サイクル学習率ポリシーを用いて学習する。
  • 実装とデータ処理のため、fast.ai/PyTorch エコシステムを活用する。
  • 二値およびマルチクラスの言語識別性能を評価する。

実験結果

リサーチクエスチョン

  • RQ1生の音声から即時に生成されるスペクトログラム表現上で動作するCNNは、複数言語に跨る言語識別を正確に行えるか。
  • RQ2音声クリップの長さが二値および多クラスの言語識別精度に与える影響はどの程度か。
  • RQ3スペクトログラム入力での言語認識における ResNet ベースのアーキテクチャは、従来の特徴抽出アプローチと比較してどのように性能を発揮するか。

主な発見

  • 二値言語識別(英語 vs. ロシア語)は、60kサンプルのクリップ(3.75s)で97%の精度を達成。
  • 長いクリップ(100kサンプル)での二値識別は97%の精度に達し、この設定では60kサンプルを超える利得が限定的であることを示す。
  • 6言語にまたがるマルチクラス識別は、60kサンプルのクリップで89%の精度を達成。
  • 二値の結果は英語とロシア語の間で頑健な性能を示し、他言語への誤分類は少ない。
  • 研究はVoxForgeデータを用い、クロスコンタミネーションを避けるため厳密な訓練/検証分離を行っている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。