Skip to main content
QUICK REVIEW

[论文解读] TTS-CGAN: A Transformer Time-Series Conditional GAN for Biosignal Data Augmentation

Xiaomin Li, Anne H. H. Ngu|arXiv (Cornell University)|Jun 28, 2022
Time Series Analysis and Forecasting被引用 27
一句话总结

TTS-CGAN 是一个基于 Transformer 的条件 GAN,能够生成任意长度的多类别时间序列生物信号数据,实现跨类别的数据扩增和迁移学习。

ABSTRACT

Signal measurement appearing in the form of time series is one of the most common types of data used in medical machine learning applications. Such datasets are often small in size, expensive to collect and annotate, and might involve privacy issues, which hinders our ability to train large, state-of-the-art deep learning models for biomedical applications. For time-series data, the suite of data augmentation strategies we can use to expand the size of the dataset is limited by the need to maintain the basic properties of the signal. Generative Adversarial Networks (GANs) can be utilized as another data augmentation tool. In this paper, we present TTS-CGAN, a transformer-based conditional GAN model that can be trained on existing multi-class datasets and generate class-specific synthetic time-series sequences of arbitrary length. We elaborate on the model architecture and design strategies. Synthetic sequences generated by our model are indistinguishable from real ones, and can be used to complement or replace real signals of the same type, thus achieving the goal of data augmentation. To evaluate the quality of the generated data, we modify the wavelet coherence metric to be able to compare the similarity between two sets of signals, and also conduct a case study where a mix of synthetic and real data are used to train a deep learning model for sequence classification. Together with other visualization techniques and qualitative evaluation approaches, we demonstrate that TTS-CGAN generated synthetic data are similar to real data, and that our model performs better than the other state-of-the-art GAN models built for time-series data generation.

研究动机与目标

  • 通过用条件 GAN 扩增时间序列数据来解决生物信号分析中的数据稀缺和隐私问题。
  • 在单个模型中实现跨类别的多类时间序列生成和跨类别的迁移学习。
  • 提出一个鲁棒的相似度度量来评估生成的时间序列数据质量。
  • 通过案例研究展示在分类任务中的数据扩增收益的实用性。

提出的方法

  • 提出 TTS-CGAN,这是一个基于 Transformer 的条件 GAN,生成器将随机噪声和目标类别映射到一个合成时间序列。
  • 将时间序列视为 1 x 1 x W 的图像,在时间轴方向上分块,使用学习的位置信编码。
  • 用两个头训练判别器:对抗输出和信号类别的分类输出,采用带梯度惩罚的 Wasserstein 损失。
  • 将类别标签嵌入到生成器输入中,同时在判别器上添加一个独立的分类头以实现条件设置。
  • 采用带对抗损失和分类损失的条件 GAN 目标,在需要时使用软标签策略以稳定训练。
  • 提供标签嵌入策略的研究并得出结论:将标签嵌入连接到生成器输入,并配合判别器的分类头,在各架构中均表现最佳。

实验结果

研究问题

  • RQ1单个基于 Transformer 的条件 GAN 是否能够生成任意长度的多类别生物信号时间序列数据?
  • RQ2仅在生成器中嵌入类别标签并使用判别器分类头是否能提高基于 Transformer 的 GAN 的合成数据质量?
  • RQ3我们如何以定量方式评估现实数据和合成时间序列数据之间的相似性,以支持多类别评估?
  • RQ4合成数据增强是否能提升生物信号数据集上的下游序列分类性能?

主要发现

  • TTS-CGAN 可以生成具有任意长度的类别特异性合成时间序列。
  • 一种将标签拼接到生成器输入并在判别器上使用分类头的标签嵌入策略,在测试的架构中表现最佳。
  • 带梯度惩罚的 Wasserstein 损失稳定训练并提高合成数据质量。
  • 提出一种修改的小波相干度度量,用于量化两组时间序列信号之间的相似性。
  • 在多个数据集上的实验表明合成数据与真实数据相似,TTS-CGAN 在质量度量上优于最先进的时间序列 GAN。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。