QUICK REVIEW

[論文レビュー] Voice2Series: Reprogramming Acoustic Models for Time Series Classification

Huck Yang, Yun-Yun Tsai|arXiv (Cornell University)|Jun 17, 2021

Music and Audio Processing被引用数 35

ひとこと要約

Voice2Series (V2S) は入力変換とラベルマッピングで事前学習済み音響モデルを再プログラムし、時系列分類を行い、30のUCRデータセット中19データセットで競争力のある結果を達成し、ソースリスクと表現整合性に基づく理論的リスク境界を提供する。

ABSTRACT

Learning to classify time series with limited data is a practical yet challenging problem. Current methods are primarily based on hand-designed feature extraction rules or domain-specific data augmentation. Motivated by the advances in deep speech processing models and the fact that voice data are univariate temporal signals, in this paper, we propose Voice2Series (V2S), a novel end-to-end approach that reprograms acoustic models for time series classification, through input transformation learning and output label mapping. Leveraging the representation learning power of a large-scale pre-trained speech processing model, on 30 different time series tasks we show that V2S performs competitive results on 19 time series classification tasks. We further provide a theoretical justification of V2S by proving its population risk is upper bounded by the source risk and a Wasserstein distance accounting for feature alignment via reprogramming. Our results offer new and effective means to time series classification.

研究の動機と目的

時系列分類のデータ不足を克服するために大規模な事前学習済み音響モデルを活用する。
ターゲット時系列タスクのために音響モデルを再プログラムする普遍的な入力変換を提案する。
再プログラミング性能を向上させるための多対一のソース-ターゲットラベルマッピングを導入する。
母集団リスク境界と Wasserstein に基づく表現整合性による理論的正当性を提供する。
UCR 時系列ベンチマークと解釈性分析で実証的性能を示す。

提案手法

入力をパディングし δ を加えてソース入力空間に適合させる可訓練可能な入力再プログラミング関数 H を定義する。
事前学習済み音響モデルを固定し、再プログラミングパラメータ theta を最適化して V2S 損失を最小化する。これは多対一マッピングを介してソースとターゲットのラベルを揃える。
ソースラベルからターゲットラベルへの多対一マッピング h を用い、ソース予測を集約してターゲット予測を得る。
再プログラム済み入力に対してターゲットラベルの負対数尤度を最小化するよう ADAM で訓練する。
ターゲットリスクがソースリスクと logit 表現間の Wasserstein-1 距離で上界されるという理論的分析を提供し、モデル選択の含意を論じる。
転移学習ベースライン TF-a に対して V2S-a (Attention ベース AM) および V2S-u (UNet 強化 AM) を評価する。

実験結果

リサーチクエスチョン

RQ1音響モデルを再学習させずに時系列分類タスクに再プログラムできるか？
RQ2Voice2Series は標準の時系列ベンチマークで SOTA 手法と比較して競争力のある性能を達成するか？
RQ3時系列タスクで再プログラミングが成功する理論的保証は何か？
RQ4ソースとターゲット領域間の表現整合性が再プログラミング性能にどう影響するか？
RQ5再プログラムされた入力がAMの意思決定にどう影響するかを示す説明（視覚化）は？

主な発見

V2S は事前学習済み音響モデルを使用した場合、30のUCRデータセットのうち19で競争力のある結果を達成する。
V2S-a 変体は一般に V2S-u よりも優れており、理論的リスク境界と一致している。
転移学習ベースライン TF-a はターゲットデータが限られているため性能が劣る。
ログリット特徴間の表現整合性（ワッサースタイン距離）が再プログラミング性能と相関しており、理論境界を裏付ける。
多対一ラベルマッピングは one-to-one マッピングと比較して再プログラミング精度を向上させる。
視覚化（CAM、アテンションマップ、t-SNE）は再プログラム後の識別可能で解釈可能な表現とクラス分離を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。