QUICK REVIEW

[論文レビュー] Learning Hierarchical Discrete Linguistic Units from Visually-Grounded Speech

David Harwath, Wei-Ning Hsu|arXiv (Cornell University)|Nov 21, 2019

Multimodal Machine Learning Applications参考文献 68被引用数 70

ひとこと要約

本論文は ResDAVEnet-VQ を提案する。視覚 grounded の音声モデルで、複数のベクトル量子化層を用いて階層的な離散言語ユニットを学習し、サブワード ABX の性能を高く抑え、上層で語様の検出器を発見する。

ABSTRACT

In this paper, we present a method for learning discrete linguistic units by incorporating vector quantization layers into neural models of visually grounded speech. We show that our method is capable of capturing both word-level and sub-word units, depending on how it is configured. What differentiates this paper from prior work on speech unit learning is the choice of training objective. Rather than using a reconstruction-based loss, we use a discriminative, multimodal grounding objective which forces the learned units to be useful for semantic image retrieval. We evaluate the sub-word units on the ZeroSpeech 2019 challenge, achieving a 27.3\\% reduction in ABX error rate over the top-performing submission, while keeping the bitrate approximately the same. We also present experiments demonstrating the noise robustness of these units. Finally, we show that a model with multiple quantizers can simultaneously learn phone-like detectors at a lower layer and word-like detectors at a higher layer. We show that these detectors are highly accurate, discovering 279 words with an F1 score of greater than 0.5.

研究の動機と目的

文字起こしなしで、音声から離散的で階層的な言語表現を学習する動機づけ。
視覚 grounding を識別的な自己教師付き目的として活用し、音声表現を形成する。
複数のベクトル量子化層を挿入することで、サブワードおよび語レベルのユニットが得られるかを検討する。
学習されたユニットのノイズやドメインシフトに対する頑健性を測定する。
語様検出器の出現を実証し、言語的解釈可能性を定量化する。

提案手法

ResDAVEnet 視覚 grounding 音声モデルを複数のベクトル量子化（VQ）層（VQ2、VQ3）で拡張する。
再構成損失ではなく、識別的なマルチモーダル grounding 目的下で学習する。
VQ コードブックの直通推定器と EMA 更新を用い、コードブックサイズを 1024 にする。
どの層をいつ量子化するかを制御するため、 cold-start および warm-start カリキュラムを用いて実験する。
ランダムにサンプルされたネガティブとセミハードネガティブを組み合わせたトリプレットベースの grounding 損失でエンドツーエンドに学習する。
ZeroSpeech ABX と R@10 の指標、さらにサブワード単位在庫の RLE およびセグメントベースのビットレートを用いて評価する。

実験結果

リサーチクエスチョン

RQ1再構成損失なしで、視覚 grounding を持つ音声モデルの複数の VQ 層は階層的な離散ユニット（サブワードおよび語様）を捕捉できるか？
RQ2トレーニング・カリキュラム（どの層をいつ量子化するか）が、音素ユニットと語彙ユニットの出現にどう影響するか？
RQ3学習されたユニットは、非量子化ベースラインと比較してノイズやドメインシフトに対して頑健か？
RQ4高層の量子化器は語様検出器に特化し、実際の語へマッピングできるか？
RQ5音素/語対応の観点から、学習されたユニットの解釈性はどの程度か？

主な発見

視覚 grounding によって導かれる量子化は、VQ 層をどこにどのように挿入するかに依存して、離散的なサブワードおよび語様ユニットを生み出す。
適切なカリキュラムと共に VQ2 を備えたモデルは、ビットレートが同等でありつつ、ZeroSpeech 2019 のトップ提出より ABX を 27.3% 改善する。
二重量子化器のセットアップは、下位層の音素検出器と上位層の語様検出器を学習でき、VQ3 層は語レベルの対応を示す。あるモデルは F1 > 0.5 で 279 語を学習する。
ノイズに対する頑健性を示し、ノイズ条件下で ABX 弁別タスクにおいて WaveNet-VQ ベースラインを上回る。
視覚 grounding により解釈可能なマッピングを実現し、VQ3 コードが語様ユニットと検出可能な語へと整合することを、例示的な語-コード対応と F1 ベースの評価で示す。
カリキュラムの効果：高位の量子化器の cold-start 学習は ABX を妨げる可能性がある一方、語検出器を明らかにする。 warm-start または段階的学習は下位層の音素情報を保つ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。