[论文解读] Voice2Series: Reprogramming Acoustic Models for Time Series Classification
Voice2Series (V2S) 通过输入变换和标签映射对预训练的声学模型进行再编程,以执行时间序列分类,在30个UCR数据集中的19个上取得有竞争力的结果,并基于源风险与表示对齐提供理论风险界限。
Learning to classify time series with limited data is a practical yet challenging problem. Current methods are primarily based on hand-designed feature extraction rules or domain-specific data augmentation. Motivated by the advances in deep speech processing models and the fact that voice data are univariate temporal signals, in this paper, we propose Voice2Series (V2S), a novel end-to-end approach that reprograms acoustic models for time series classification, through input transformation learning and output label mapping. Leveraging the representation learning power of a large-scale pre-trained speech processing model, on 30 different time series tasks we show that V2S performs competitive results on 19 time series classification tasks. We further provide a theoretical justification of V2S by proving its population risk is upper bounded by the source risk and a Wasserstein distance accounting for feature alignment via reprogramming. Our results offer new and effective means to time series classification.
研究动机与目标
- 通过利用大型预训练声学模型解决时间序列分类中的数据稀缺问题。
- 提出一种通用的输入变换,将声学模型重新编程用于目标时间序列任务。
- 引入多对一的源到目标标签映射以提升重新编程性能。
- 通过总体风险界限和基于 Wasserstein 的表示对齐提供理论论证。
- 在 UCR 时间序列基准测试上展示经验性能与可解释性分析。
提出的方法
- 定义一个可训练的输入重新编程函数 H,对目标输入进行填充并加上一个增量,以适应源输入空间。
- 固定预训练的声学模型,优化重新编程参数 theta,以最小化 V2S 损失,该损失通过多对一映射对齐源标签与目标标签。
- 使用从源标签到目标标签的多对一映射 h,将源预测聚合以得到目标预测。
- 使用 ADAM 训练,以最小化给定重新编程输入的目标标签的负对数似然。
- 给出理论分析,表明目标风险被源风险加上对数表示之间的 Wasserstein-1 距离所界定,并讨论对模型选择的影响。
- 使用 V2S-a(基于注意力的 AM)和 V2S-u(UNet 增强的 AM)相对于迁移学习基线 TF-a 进行评估。
实验结果
研究问题
- RQ1声学模型是否可以在不重新训练权重的情况下,为时间序列分类任务进行重新编程?
- RQ2Voice2Series 在标准时间序列基准上是否能够取得与最先进方法相竞争的性能?
- RQ3哪些理论保证能解释何时重新编程在时间序列任务上会成功?
- RQ4源域与目标域之间的表示对齐如何影响重新编程性能?
- RQ5哪些解释(可视化)展示重新编程输入如何影响 AM 的决策?
主要发现
- 在使用预训练声学模型时,V2S 在 30 个 UCR 数据集中的 19 个上取得了具有竞争力的结果。
- V2S-a 变体通常优于 V2S-u,与理论风险界限一致。
- 迁移学习基线 TF-a 由于目标数据有限而表现不佳。
- 表示对齐(Wasserstein 距离)在对数特征之间与重新编程性能相关,支持理论界限。
- 多对一标签映射相较于一对一映射提升了重新编程的准确性。
- 可视化(CAM、注意力图、t-SNE)显示重新编程后的表示具有区分性、可解释性且类别可分性得到提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。