QUICK REVIEW

[論文レビュー] Audio Word2Vec: Unsupervised Learning of Audio Segment Representations using Sequence-to-sequence Autoencoder

Yu-An Chung, Chao-Chung Wu|arXiv (Cornell University)|Mar 3, 2016

Music and Audio Processing参考文献 31被引用数 29

ひとこと要約

本稿では、順序付きシーケンスから順序付きシーケンスへの自己符号化器（sequence-to-sequence autoencoder）を用いた、双方向LSTMを搭載した教師なし手法であるAudio Word2Vecを提案する。この手法は、可変長の音声セグメントに対して固定次元のベクトル表現を学習する。従来のDTWベースのクエリ・バイ・エクサムプル型 spoken term detection（STD）と比較して、精度と効率性の両面で優れている。ノイズ除去変種を用いることで、さらに耐障害性と性能が向上する。

ABSTRACT

The vector representations of fixed dimensionality for words (in text) offered by Word2Vec have been shown to be very useful in many application scenarios, in particular due to the semantic information they carry. This paper proposes a parallel version, the Audio Word2Vec. It offers the vector representations of fixed dimensionality for variable-length audio segments. These vector representations are shown to describe the sequential phonetic structures of the audio segments to a good degree, with very attractive real world applications such as query-by-example Spoken Term Detection (STD). In this STD application, the proposed approach significantly outperformed the conventional Dynamic Time Warping (DTW) based approaches at significantly lower computation requirements. We propose unsupervised learning of Audio Word2Vec from audio data without human annotation using Sequence-to-sequence Audoencoder (SA). SA consists of two RNNs equipped with Long Short-Term Memory (LSTM) units: the first RNN (encoder) maps the input audio sequence into a vector representation of fixed dimensionality, and the second RNN (decoder) maps the representation back to the input audio sequence. The two RNNs are jointly trained by minimizing the reconstruction error. Denoising Sequence-to-sequence Autoencoder (DSA) is furthered proposed offering more robust learning.

研究の動機と目的

人間によるアノテーションを一切用いずに、可変長の音声セグメントに対する固定次元のベクトル表現を学習すること。
教師なし表現学習により、音声内の順序的な発音構造を捉えること。
クエリ・バイ・エクサムプル型 spoken term detection（STD）における効率性と精度の向上を図ること。
NLPにおけるWord2Vecと同等の自己教師あり音声埋め込みの有効性を検討すること。
ノイズ除去拡張を用いて、学習された表現の耐障害性と一般化性能を評価すること。

提案手法

入力音声シーケンスを固定次元の潜在ベクトルにマップするエンコーダと、潜在コードから元のシーケンスを再構築するデコーダを備えた、二つの双方向LSTMを用いた順序付きシーケンスから順序付きシーケンスへの自己符号化器（SA）を採用。
元の音声シーケンスと再構築されたシーケンスの再構築誤差を最小化することで、SAをエンド・ツー・エンドで訓練。
訓練中に入力シーケンスを汚染することで、ノイズ除去順序付きシーケンスから順序付きシーケンスへの自己符号化器（DSA）を適用し、耐障害性と一般化性能を向上。
モデルの入力としてMFCC特徴量を用い、エンコーダが各音声セグメントに対してd次元のベクトル表現を出力。
クエリ・バイ・エクサムプル型STDにおける効率的検索のため、学習済みベクトル表現間のコサイン類似度を用いる。
検索タスクにおいて、手作業で設計されたベースライン（例：Naïve Encoder）およびDTWと、学習済み表現を比較。

実験結果

リサーチクエスチョン

RQ1教師なし学習による音声セグメント埋め込みは、発音的・順序的な構造を適切に捉えられるか？
RQ2DTW や手作業特徴量の平均化といった従来手法と比較して、学習済みベクトル表現はどのように性能を発揮するか？
RQ3ノイズ除去変種（DSA）は、学習済み表現の耐障害性と性能を向上させるか？
RQ4ベクトル表現は、たとえば発音の置換（例：最初の音素や最後の音素の変更）といった類似性推論をどの程度可能にするか？
RQ5DTWと比較して、著しく低い計算コストで高い検索精度を達成できるか？

主な発見

DSAバージョンは、クエリ・バイ・エクサムプル型 spoken term detection における平均平均精度（MAP）で、SAおよびすべての Naïve Encoder ベースライン（NE52, NE78, NE104）を上回った。
DSAは約390エポックの訓練後、すべてのベースラインを上回ったのに対し、SAは約450エポック後に上回った。
学習済みベクトル表現により類似性推論が可能であった：発音の変更が一貫している場合（例：最初または最後の音素が変更された場合）、単語表現間の差分ベクトルが類似していた。これは、意味的および発音的構造の捉え込みを示している。
DTWと比較して著しく高い検索性能を発揮したが、計算コストははるかに低く、ベクトル同士の類似度計算のみで済んだ。
単一の音素の違いで構成される語の表現が近接していたことから、学習済み表現は順序的な発音的構造を効果的に記述していた。
教師なしアプローチは人間によるアノテーションを一切不要であり、リソースが限られた音声アプリケーションに適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。