QUICK REVIEW

[論文レビュー] Interpreting and Explaining Deep Neural Networks for Classification of Audio Signals

Sören Becker, Marcel R. Ackermann|arXiv (Cornell University)|Jul 9, 2018

Explainable Artificial Intelligence (XAI)参考文献 29被引用数 113

ひとこと要約

本論文は、音声分類における深層ニューラルネットワークの解釈に、レイヤーごとの関連性伝播（LRP）を適用し、波形およびスペクトログラムベースのモデルにおける特徴の重要度を分析するために、新しい英語の発話された数字データセットを用いる。結果は、ネットワークがLRPによって特定された関連性の高い特徴に強く依存していることを確認し、音声分類意思決定の説明における手法の有効性を裏付けた。

ABSTRACT

Interpretability of deep neural networks is a recently emerging area of machine learning research targeting a better understanding of how models perform feature selection and derive their classification decisions. This paper explores the interpretability of neural networks in the audio domain by using the previously proposed technique of layer-wise relevance propagation (LRP). We present a novel audio dataset of English spoken digits which we use for classification tasks on spoken digits and speaker's gender. We use LRP to identify relevant features for two neural network architectures that process either waveform or spectrogram representations of the data. Based on the relevance scores obtained from LRP, hypotheses about the neural networks' feature selection are derived and subsequently tested through systematic manipulations of the input data. The results confirm that the networks are highly reliant on features marked as relevant by LRP.

研究の動機と目的

レイヤーごとの関連性伝播（LRP）を適用することで、音声分類における深層ニューラルネットワークの解釈性を向上させること。
訓練および評価用に使用可能な、新しい英語の発話された数字データセットの開発および公開すること。
LRPに基づく説明を用いて、ニューラルネットワークが発話された数字および話者の性別を分類する際に、どの特徴を選択しているかを調査すること。
入力の系統的変更を通じて、LRPによって特定された特徴の信頼性を検証すること。

提案手法

音声入力に対して、深層ニューラルネットワークの各レイヤーを遡って関連性スコアを追跡するため、レイヤーごとの関連性伝播（LRP）を提案および適用する。
新規の発話された数字データセットを用いて、原始波形を処理するアーキテクチャとスペクトログラムを用いるアーキテクチャの両方を訓練する。
LRPを用いて入力のサリエンシー・マップを生成し、分類意思決定に最も寄与する部分（時間周波数領域または波形セグメント）を特定する。
LRPによって特定された関連性の高い領域をマスキングまたは変更することで、入力を系統的に操作し、モデルのロバストネスおよび仮説の妥当性をテストする。
アーキテクチャ間で関連性マップを比較し、特徴選択行動の違いを分析する。

実験結果

リサーチクエスチョン

RQ1LRPによって明らかにされた音声特徴は、発話された数字および話者の性別を分類する際に、ニューラルネットワークがどの程度依存しているか。
RQ2波形モデルとスペクトログラムモデルの両方において、LRPが生成する関連性スコアはどの程度一貫しているか。
RQ3LRPによって特定された関連性の高い特徴を変更または削除した場合、モデルの予測はどの程度変化するか。
RQ4LRPは、発話された数字におけるピッチ、フォルマント遷移、音声的遷移といった意味のある音響的手がかりを効果的に強調できるか。

主な発見

ネットワークは、LRPによって関連性が高いとマークされた特徴に対して高い感受性を示し、これらの領域をマスキングまたは変更した場合に顕著な性能低下を示した。
LRPは、両方の表現（波形およびスペクトログラム）において、フォルマント遷移やピッチの連続など、音響的に意味のある領域を効果的に強調した。
スペクトログラムで学習したモデルはより局所的な関連性マップを示した一方、波形で学習したモデルは、発話の持続時間やエンvelope特徴に一致する広範な時間的パターンを強調した。
系統的な入力操作により、LRPによって特定された関連性の高い特徴を削除すると誤分類が生じることが確認され、解釈可能性アプローチの妥当性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。