QUICK REVIEW

[论文解读] Voice2Series: Reprogramming Acoustic Models for Time Series Classification

Huck Yang, Yun-Yun Tsai|arXiv (Cornell University)|Jun 17, 2021

Music and Audio Processing被引用 35

一句话总结

Voice2Series (V2S) 通过输入变换和标签映射对预训练的声学模型进行再编程，以执行时间序列分类，在30个UCR数据集中的19个上取得有竞争力的结果，并基于源风险与表示对齐提供理论风险界限。

ABSTRACT

Learning to classify time series with limited data is a practical yet challenging problem. Current methods are primarily based on hand-designed feature extraction rules or domain-specific data augmentation. Motivated by the advances in deep speech processing models and the fact that voice data are univariate temporal signals, in this paper, we propose Voice2Series (V2S), a novel end-to-end approach that reprograms acoustic models for time series classification, through input transformation learning and output label mapping. Leveraging the representation learning power of a large-scale pre-trained speech processing model, on 30 different time series tasks we show that V2S performs competitive results on 19 time series classification tasks. We further provide a theoretical justification of V2S by proving its population risk is upper bounded by the source risk and a Wasserstein distance accounting for feature alignment via reprogramming. Our results offer new and effective means to time series classification.

研究动机与目标

通过利用大型预训练声学模型解决时间序列分类中的数据稀缺问题。
提出一种通用的输入变换，将声学模型重新编程用于目标时间序列任务。
引入多对一的源到目标标签映射以提升重新编程性能。
通过总体风险界限和基于 Wasserstein 的表示对齐提供理论论证。
在 UCR 时间序列基准测试上展示经验性能与可解释性分析。

提出的方法

定义一个可训练的输入重新编程函数 H，对目标输入进行填充并加上一个增量，以适应源输入空间。
固定预训练的声学模型，优化重新编程参数 theta，以最小化 V2S 损失，该损失通过多对一映射对齐源标签与目标标签。
使用从源标签到目标标签的多对一映射 h，将源预测聚合以得到目标预测。
使用 ADAM 训练，以最小化给定重新编程输入的目标标签的负对数似然。
给出理论分析，表明目标风险被源风险加上对数表示之间的 Wasserstein-1 距离所界定，并讨论对模型选择的影响。
使用 V2S-a（基于注意力的 AM）和 V2S-u（UNet 增强的 AM）相对于迁移学习基线 TF-a 进行评估。

实验结果

研究问题

RQ1声学模型是否可以在不重新训练权重的情况下，为时间序列分类任务进行重新编程？
RQ2Voice2Series 在标准时间序列基准上是否能够取得与最先进方法相竞争的性能？
RQ3哪些理论保证能解释何时重新编程在时间序列任务上会成功？
RQ4源域与目标域之间的表示对齐如何影响重新编程性能？
RQ5哪些解释（可视化）展示重新编程输入如何影响 AM 的决策？

主要发现

在使用预训练声学模型时，V2S 在 30 个 UCR 数据集中的 19 个上取得了具有竞争力的结果。
V2S-a 变体通常优于 V2S-u，与理论风险界限一致。
迁移学习基线 TF-a 由于目标数据有限而表现不佳。
表示对齐（Wasserstein 距离）在对数特征之间与重新编程性能相关，支持理论界限。
多对一标签映射相较于一对一映射提升了重新编程的准确性。
可视化（CAM、注意力图、t-SNE）显示重新编程后的表示具有区分性、可解释性且类别可分性得到提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。