QUICK REVIEW

[论文解读] TLDiffGAN: A Latent Diffusion-GAN Framework with Temporal Information Fusion for Anomalous Sound Detection

Chengyuan Ma, Peng Jia|arXiv (Cornell University)|Feb 1, 2026

Music and Audio Processing被引用 0

一句话总结

TLDiffGAN 将潜在扩散–GAN 主干与双分支特征融合（声谱图与原始波形编码）以及 TMixup 相结合，在 DCASE 2020 Task 2 上提升无监督异常声音检测与定位的性能与鲁棒性。

ABSTRACT

Existing generative models for unsupervised anomalous sound detection are limited by their inability to fully capture the complex feature distribution of normal sounds, while the potential of powerful diffusion models in this domain remains largely unexplored. To address this challenge, we propose a novel framework, TLDiffGAN, which consists of two complementary branches. One branch incorporates a latent diffusion model into the GAN generator for adversarial training, thereby making the discriminator's task more challenging and improving the quality of generated samples. The other branch leverages pretrained audio model encoders to extract features directly from raw audio waveforms for auxiliary discrimination. This framework effectively captures feature representations of normal sounds from both raw audio and Mel spectrograms. Moreover, we introduce a TMixup spectrogram augmentation technique to enhance sensitivity to subtle and localized temporal patterns that are often overlooked. Extensive experiments on the DCASE 2020 Challenge Task 2 dataset demonstrate the superior detection performance of TLDiffGAN, as well as its strong capability in anomalous time-frequency localization.

研究动机与目标

说明单模态与传统生成模型在 ASD 中的局限性并提出动机。
提出一个双分支框架，将对数梅尔谱重构与原始波形特征进行融合。
引入自适应 TMixup，以提升对接近正常边界的微弱时间变化的敏感性。
利用预训练音频编码器以保留谱图中丢失的信息。
在 DCASE 2020 Task 2 上展示更优的性能与定位能力。

提出的方法

在潜在空间将潜在扩散模型与 GAN 相结合，以重构高质量的对数梅尔谱（LDGAN 主干）。
以双目标函数优化生成器：噪声预测损失与统计特征空间匹配损失；判别器使用对抗损失和梯度惩罚以提高稳定性。
通过 TMixup 模块增强时间特征，该模块从池化的对数梅尔特征计算软时间注意力图，然后在高注意区域执行硬掩蔽和局部 Mixup。
并行使用预训练音频编码器（如 EAT、BEATs、AST 变体、BEATs）提取鲁棒的原始波形嵌入，与谱图特征并行。
检测器将来自潜在空间重构误差的重建分数（s_r）与在融合的梅尔与波形特征上进行的嵌入式集合（KNN、LOF、GMM、SOS）结合；最终分数在验证集基础上为每台机器选取最佳检测器。

实验结果

研究问题

RQ1在不依赖机器元数据的情况下，利用频谱图重构与原始波形嵌入的双分支框架是否可以提升 ASD 性能？
RQ2将潜在扩散与 GAN 训练相结合是否可提升重构保真度并稳定 ASD 训练？
RQ3TMixup 是否通过强调正常数据分布边界区域来增强时序定位？
RQ4当与基于谱图的方法结合时，预训练音频编码器对 ASD 性能的影响如何？
RQ5在 DCASE 2020 Task 2 数据集上，该方法在多种机器类型上的表现如何，及其在时–频空间对异常的定位能力如何？

主要发现

我们在多台机器类型上的平均 AUC 与 pAUC 均居于前列：AUC 88.60%，pAUC 74.35%。
我们的方法在大多数机器上超越了 DCASE 2020 Task 2 的主流生成模型。
基于 EAT 的编码器在测试的预训练编码器中实现了最佳的平均性能。
消融实验显示去掉潜在扩散、EAT 编码器或对数梅尔增强都会降低性能。
该模型通过重构残差分析展示出对时–频异常的强定位能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。